推荐 序 


许 式 伟 ， 七 牛 云 CEO。 曾 就 职 于 金山 、 百 度 、 盛 大， 拥有 超过 15 年 的 技术 积累 ， 连 续 8 年 组 织 ECUG 实 效 云 计算 开发 组 年 会 。 曾 获 国家 科学 技术 进步 奖 二 等 奖 。 
2011 年 ， 与 吕 桂 华 一 起 创立 七 牛 云 ， 现 已 服务 50 多 万 家 企业 。 


非常 荣幸 能 受 邀 为 本 书 作 序 。 


2011 年 我 从 盛大 离职 ， 创 办 了 七 牛 云 。 


在 移动 互联 网 时 代 ， 初 创 企业 和 巨头 们 之 间 的 力量 相差 悬殊 ， 这 滋生 了 创业 扶持 产业 的 出 现 与 兴起 。 所 谓 创业 扶持 产业 ， 从 技术 革新 上 看 就 是 “ 云 ”， 云 服务 让 所 有 的 初创 企业 有 了 和 巨头 们 一 样 的 基 
础 设施 。 

很 快 ， 云 服务 的 时 代 就 在 预期 中 到 来 了 。 很 多 人 开始 担心 ， 自 己 的 业务 知识 能 否 胜任 “新 运 维 ”的 需求 。 其 实 我 想 告 诉 大 家 ， 互 联网 中 各 类 技术 的 革新 总 是 很 快 的 ， 无 论 你 做 哪 一 类 工作 ， 当 跟 不 上 技 
术 发 展 的 时 候 ， 就 会 面临 被 淘汰 的 危险 。 传 统 运 维 的 革新 是 一 个 必然 的 过 程 ， 如 果 你 对 运 维 知识 的 了 解 一 直 停留 在 原 地 ， 那 你 离 悬 崖 就 不 远 了 。 


云 服务 下 的 运 维 相 较 于 传统 服务 器 的 模式 ， 优 势 已 相当 明显 。 企 业 无 需 花费 巨额 的 资金 来 购买 新 的 服务 器 和 托管 机 房 的 机 位 ， 就 能 够 低 成 本 、 低 风险 地 实现 新 增 业 务 。 同 时 ， 运 维 人 员 不 再 只 能 利用 传 
统 的 网 管 手段 来 定位 系统 故障 ， 他 们 可 以 通过 云 计 算 管理 平台 以 及 虚拟 设备 管理 平台 进行 分 析 。 


此 外 ， 云 服务 的 鞍 勃 发 展 也 令 互 联网 产业 发 生 了 巨变 ， 互 联网 产业 整体 的 蛋糕 做 大 了 ， 这 使 得 其 对 运 维 的 总 体 需求 呈现 上 升 的 趋势 。 这 对 运 维 人 员 是 一 个 非常 好 的 机 会 ， 只 要 知识 与 能 力 满足 了 岗位 需 
求 ， 你 的 待遇 和 发 展 就 能 上 一 个 台阶 。 


作为 云 服务 行业 以 及 创业 公司 的 代表 ， 七 牛 云 深 说 创业 的 艰辛 。 我 们 反复 说 ， 七 牛 云 的 目标 是 打造 一 个 场景 化 的 PaaS (Platform-as-a-Service， 平 台 即 服务 ) 平台 ， 帮 助 开发 者 缩短 从 想法 到 产品 的 距 
离 。 我 们 打造 了 很 多 子 产 品 ， 包 括 大 数据 、 通 用 计算 、 云 计算 等 。 从 我 们 发 布 产品 的 服务 类 型 来 看 ， 第 一 类 是 对 象 存储 服务 ， 第 二 类 是 融合 CDN 服 务 ， 第 三 类 是 数据 处 理 服务 ， 第 四 类 是 直播 云 以 及 实时 流 
网 络 LiveNet 服 务 。 


《 运 维 前 线 》 这 本 书 集合 14 位 资深 运 维 专家 的 实践 经 验 ， 覆 盖 了 互联 网 和 传统 行业 运 维 的 各 个 领域 。 其 中 所 述 的 运 维 方法 、 技 巧 与 实践 ， 都 和 七 牛 云 息息相关 ， 这 也 正 是 我 为 本 书 作 序 的 原因 。 


这 里 我 举 两 个 例子 : 


在 本 书 第 3 章 中 讲 到 ， 动 静 分 离 的 架构 是 基于 Web 开 发 的 互联 网 服务 中 常见 的 架构 的 ， 它 是 指 将 数据 库 中 的 动态 内 容 存储 和 文件 存储 分 开 ， 常 见 的 做 法 是 将 动态 内 容 存储 在 原 有 的 数据 库 系统 中 ， 而 将 静 
态 文 件 ， 如 图 片 和 音 视频 等 ， 托 管 存储 在 七 牛 云 提供 的 对 象 存储 服务 中 ， 这 样 可 以 更 方便 地 维护 不 同类 型 的 数据 。 


在 本 书 第 12 章 中 讲 到 ，CDN 节 点 由 于 数量 众多 ， 承 受 的 流量 巨大 ， 再 加 上 国内 网 络 的 复杂 度 极 高 ， 因 此 真正 商用 CDN 的 建设 有 一 定 难度 ， 并 且 硬件 和 运 维 成 本 都 不 低 ， 因 此 一 般 而 言 ， 企 业 不 会 去 自 建 
CDN， 而 是 选择 七 牛 云 这 样 的 企业 来 解决 问题 。 


云 服务 的 兴起 改变 了 运 维 ， 而 这 种 改变 不 会 停止 。 


云 服务 厂商 可 以 将 所 有 事情 标准 化 ， 然 后 以 服务 的 形式 打包 提供 给 客户 。 而 运 维 人 员 将 告别 烦琐 的 工作 内 容 ， 但 是 他 们 可 能 要 承担 更 多 的 职责 一 一 解决 监控 、 评 估 、 采 购 、 报 修 等 问题 。 


当然 ， 你 如 果 在 云 服务 厂商 做 运 维 工 作 ， 便 需要 对 传统 运 维 有 更 深刻 的 理解 了 。 


加 
囊 


为 什么 要 写 这 本 书 


《 运 维 前 线 : 一 线 运 维 专家 的 运 维 方法 、 技 巧 与 实践 》 (以 下 简称 《 运 维 前 线 》) 是 前 线 系列 的 一 个 子 集 ， 前 线 系列 图 书 的 出 版 理念 是 邀请 多 位 业界 专家 ， 总 结 所 在 行业 的 最 新 理念 或 深度 实践 经 验 。 
前 线 系列 图 书 不 同 于 市 面 上 的 很 多 图 书 ， 这 类 书 并 不 系统 ， 有 的 只 是 一 线 专家 的 实战 经 验 ， 人 们 常 称 之 为 “干货 ”。 一 篇 文章 、 一 家 公司 、 一 个 案例 、 一 个 场景 ， 独 立成 篇 ， 在 满足 碎片 化 阅读 的 同时 ， 也 
能 让 读者 进行 横向 比较 和 深入 思考 。 本 系列 图 书 不 强调 大 而 全 ， 追 求 的 是 每 篇 文章 都 是 精品 ， 希 望 能 给 读者 带 来 深度 的 启发 和 收获 。 


按照 这 个 理念 ， 之 前 著名 产品 经 理 兰 军 (笔名 Blues) 策划 的 《产品 前 线 》， 出 版 之 后 大 获 成 功 ， 随 之 而 来 的 《 运 维 前 线 》 仿 我 感觉 到 压力 巨大 。《 运 维 前 线 》 的 出 版 犹如 十 月 怀胎 ， 中 间 充 满 波折 ， 好 
几 次 我 都 以 为 要 半途 而 废 了 ， 最 后 终于 得 以 出 版 ， 在 此 要 特别 感谢 机 械 工业 出 版 社 华章 公司 著名 出 版 人 杨 福 川 ， 是 他 的 坚持 和 鼓励 让 我 总 能 在 迷茫 中 看 到 希望 。 我 和 福 川 有 共同 的 理念 ， 希 望 把 《 运 维 前 
线 》 做 成 精品 ， 如 果 有 哪 点 不 符合 要 求 ， 那 么 我 们 宁愿 耗 时 长 一 些 ， 多 打磨 打磨 ， 很 庆幸 能 与 福 川 一 起 合作 。 


本 书 共有 14 位 作者 ， 包 含 了 在 腾讯 、YY 语 音 、UC、 京 东 、 盛 大 游戏 、 金 山西 山居 、 猫 鹏 移动 、 广 发 银行 、 优 维 科技 等 多 家 公司 工作 的 实践 经 验 ， 基 本 覆盖 了 互联 网 和 传统 行业 运 维 的 各 个 领域 ,估计 
这 是 迄今 为 止 第 一 本 由 这 么 多 资深 运 维 专家 联合 写成 的 图 书 ， 也 是 第 一 本 分 享 了 众多 一 线 运 维 专 家 亲身 实践 的 图 书 。 本 书 的 出 版 也 充分 体现 了 互联 网 开放 合作 的 精神 。 


[ 


[ 


看 到 本 书 的 目录 时 ， 我 激动 不 已 ， 即 使 书 中 的 内 容 我 已 经 看 了 好 多 遍 ， 但 是 在 回顾 目录 的 时 候 ， 我 依然 感到 这 是 一 本 非常 有 吸引 力 的 书 ， 是 一 本 每 名 运 维 工程 师 都 应 该 案头 常备 的 书 ! 


本 书 特色 


当前 IT 领域 的 概念 层出不穷 ， 云 计算 、 物 联网 、 移 动 互联 网 、 大 数据 、 人 工 智 能 、VR， 所 有 的 这 一 切 都 基于 IT 系统 ，IT 系 统 正在 向 规模 更 大 、 更 复杂 、 更 高 级 的 方向 演进 ， 一 切 IT 资源 都 掌握 在 运 维 手 
里 ， 通 过 运 维 来 操作 。 这 个 时 代 对 运 维 的 要 求 越 来 越 高 ， 运 维 如 果 稍 有 不 愤 ， 就 会 造成 重大 的 损失 ， 所 以 随 着 IT 系统 的 发 展 ， 运 维 的 重要 性 也 越 来 越 高 。 


根据 量子 力学 理论 ， 世 界 由 基本 粒子 组 成 ， 因 此 世界 是 不 连续 的 ， 这 个 理论 在 运 维 知识 体系 的 建立 上 同样 适用 。 仔 细 回 想 一 下 自己 运 维 体系 的 建立 ， 就 是 逐个 攻克 和 掌握 知识 点 ， 再 进一步 通过 实践 不 
断 加 深 的 过 程 。《 运 维 前 线 》 也 是 这 样 ， 其 中 的 每 一 篇 文章 都 能 够 协助 读者 更 快 地 掌握 一 个 或 多 个 知识 点 ， 相 信 通 过 运 维 前 线 系列 的 逐步 出 版 ， 最 终 能 够 覆盖 更 多 的 运 维 知识 点 ， 为 读者 带 来 更 多 的 实践 经 
给 和 理念 。 


作为 运 维 前 线 系列 的 第 一 本 书 ， 本 书 覆盖 了 运 维 自动 化 、 系 统 运 维 、 云 及 虚拟 化 、Web 运 维 、 游 戏 运 维 、DBA 运 维 等 6 个 方面 14 个 知识 点 ， 都 是 各 位 作者 总 结 自己 多 年 实践 经 验 的 干货 ， 每 一 篇 文章 都 
很 精彩 ， 都 值得 读者 仔细 品味 。 


本 书 作 者 


本 书 第 1 章 “自动 化 运 维 之 深度 解码 ”， 来 自 订阅 号 “互联 网 运 维 杂谈 ”的 作者 、 优 维 科技 创始 人 王 津 银 ， 人 称 “ 老 王 ”。 我 在 多 个 场合 听 过 “ 老 王 ”的 分 享 ， 有 40 分 钟 的 ， 也 有 长 达 3 个 小 时 的 ， 念 我 
惊讶 的 是 ，“ 老 王 ”每 次 总 能 带 来 新 的 东西 。 这 篇 “自动 化 运 维 之 深度 解码 ”也 是 如 此 ， 凝 结 了 老 王 许多 最 新 的 见解 ， 值 得 深 读 。 


悄 峰 是 我 在 盛大 游戏 的 前 同事 ， 从 悄 峰 身上 我 学 到 了 不 少 知识 ， 比 如 解决 问题 的 思路 和 方法 ， 有 时 候 碰 到 运 维 难题 ， 也 许 换 一 个 角度 就 能 迎刃而解 。 


刘 宇 、 尹 会 生 、 陈 立 军 是 我 多 年 的 同事 。 刘 宇 、 会 生 已 经 出 版 了 多 本 运 维 图 书 ， 他 们 都 是 非常 资深 的 运 维 专家 。 刘 宇 无 论 演讲 还 是 文章 都 逻辑 清晰 ， 丝 丝 入 扣 。 会 生 和 立 军 分 享 的 都 是 我 亲眼 所 见 的 、 
在 工作 中 碰 到 的 难题 及 解决 方法 。 


下 
枚 
茧 
[sa 


张 观 石 是 欢聚 时 代 (YY) 互 娱 事业 部 业务 运 维 负责 人 ， 有 多 年 的 将 PHP 运 用 到 日 常 运 维 中 的 经 验 。 观 石 将 PHP 用 到 了 极致 ， 即 使 不 懂 PHP， 也 可 以 通过 本 书 一 宕 观 石 在 运 维 方 


马 亮 有 多 年 的 游戏 运 维 经 验 ， 目 前 在 腾讯 云 专注 做 游戏 云 的 架构 设计 ， 对 游戏 运 维 有 深刻 的 理解 。 


本 书 的 作者 还 有 冉 宏 元 ( 老 男孩 ) 、 余 洪 春 (抚琴 起 酒 ) 、 吴 传 玉 、 彭 华 盛 、 蒋 迪 、 赵 蛇 、 赵 海军 。 虽 然 我 与 他 们 未 曾 谋面 ， 但 是 彼此 都 是 熟悉 的 网 友 ， 他 们 的 文章 我 都 曾 仔细 拜读 并 多 次 请 教 过 ， 其 
中 的 运 维 思想 让 我 深 深 折服 ， 非 常 期 待 能 有 机 会 向 他 们 当面 请 教 。 


读者 对 象 


本 书面 向 所 有 的 运 维 工 程 师 ， 无 论 是 资深 运 维 ， 还 是 刚 入 行 的 运 维 ， 相 信 都 能 从 本 书 中 获 益 。 本 书 的 读者 对 象 包括 如 下 几 类 : 


系统 运 维 工程 师 

“ 安全 工程 师 

“ 数据 库 运 维 工程 师 

“ 业务 运 维 工程 师 

“ 网 络 运 维 工 程 师 

运 维系 统 开发 工程 师 及 架构 师 
“ 云 计算 /虚拟 化 运 维 工程 师 


“ 其 他 对 运 维 感 兴趣 的 读者 


勘误 和 支持 


由 于 作者 的 水 平 有 限 ， 编 写 时 间 比 较 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 不 准确 的 地 方 ， 妨 请 读者 批评 指正 。 如 果 您 有 更 多 宝贵 的 意见 ， 欢 迎 关注 我 的 订阅 号 “ 云 技术 实践 ”， 然 后 在 后 台 将 您 的 宝贵 意 
见 发 送 给 我 。 本 书 的 勘误 也 会 通过 订阅 号 进行 发 布 ， 关 注 订阅 号 请 扫描 下 面 的 二 维 码 : 


“ 运 维 前 线 ”是 一 个 系列 ， 欢 迎 在 平时 工作 中 积累 了 实战 经 验 的 广大 运 维 工 程 师 继续 参与 “ 运 维 前 线 ”的 写作 ， 带 来 更 多 的 干货 分 享 ! 


期 待 能 够 得 到 你 们 的 真 执 反馈， 在 运 维 之 路 上 互 勉 共 进 。 


从 开始 构思 到 《 运 维 前 线 》 的 出 版 ， 本 书 的 创作 过 程 犹如 十 月 怀胎 ， 期 间 也 获得 了 无 数 的 支持 与 肯定 。 借 此 机 会 ， 向 所 有 为 此 奉献 力量 的 人 表示 深 深 的 感谢 。 


感谢 参与 本 书写 作 的 14 位 行业 专家 ， 他 们 在 百 忙 之 中 伏案 写作 ， 将 自己 的 经 验 共享 给 广大 读者 。 能 够 和 你 们 合作 ， 我 深 感 荣幸 ， 经 过 将 近 一 年 时 间 的 沟通 和 交流 ， 你 们 的 专业 和 执着 深 深 地 打动 了 我 ， 
同时 也 让 我 学 到 了 不 少 东西 。 


感谢 机 械 工业 出 版 社 华章 公司 的 首席 策划 杨 福 川 ， 编 辑 高 婧 牙 、 孙 海 亮 。 在 近 一 年 的 时 间 中 ， 你 们 的 敬业 精神 不 断 地 鼓舞 着 我 前 进 ， 你 们 的 鼓励 、 帮 助 和 坚持 引导 了 本 书 的 完成 。 


这 里 ， 我 还 要 特别 感谢 七 牛 云 。 七 牛 云 是 我 见 过 的 最 具 技 术 气质 的 云 服务 企 业 ， 肩 负 “ 帮 助 开发 者 缩短 从 想法 到 产品 的 距离 ”的 使 命 ， 立 志 打造 以 数据 为 核心 的 场景 化 PaaS 服 务 。 七 牛 云 主张 技术 共享 
并 热衷 于 技术 的 传播 ， 发 起 架构 师 实践 日 ， 推 出 各 类 创业 扶持 计划 ， 这 些 都 是 七 牛 云 正在 做 的 事 。 


刘海 文 做 了 大 量 的 义务 工作 ， 在 此 特别 感谢 ! 


本 书 在 成 书 过 程 中 ， 得 到 了 一 批 热 心志 愿 者 的 协助 ， 他 们 是 陈 家 豪 、 曹 学 朋 、 邓 荣 兴 、 刘 海 文 、 李 斯 衣 、 韩 海 林 ， 尤 
肖 力 


能 在 力 哥 组 织 的 这 本 书 中 担任 助理 ， 我 感到 非常 荣幸 。 本 书 出 自 一 群 经 验 老 到 并 乐于 分 享 的 运 维 前 辈 之 手 ， 是 一 本 案头 必 备 的 好 书 。 


第 1 章 ”自动 化 运 维 之 深度 解码 


作者 简介 


王 津 银 ，2005 年 硕士 毕业 ， 参 与 电信 BOSS 系 统 研发 两 年 。 而 后 于 2007 年 进入 腾讯 公司 接触 运 维 ， 经 历 服务 器 从 百 到 万 的 运 维 历程 ， 先 后 在 YY 和 UC 参与 不 同业 务 形态 的 运 维 ， 期 间 带 过 前 端 运 维 、 数 据 
存储 运 维 、YY 语 音 、 游 戏 运 维 、 运 维 研发 等 多 种 运 维 团队 ， 对 运 维 有 着 全 面 的 理解 。 极 力 倡导 互联 网 价值 的 运 维 理念 ， 即 面向 用 户 的 价值 是 由 自动 化 平台 来 交付 和 传递 ， 同 时 由 数据 化 来 提炼 和 衡量 的 。 
“精益 运 维 ”理论 的 创始 人 。 个 人 微 信 公众 号 “互联 网 运 维 杂 读 ” (waynewang_ops) ， 粉 丝 2.5 万 人 ， 现 创办 优 维 科技 公司 ， 旨 在 缩短 企业 到 达 互 联网 运 维 的 路 径 。 


自动 化 运 维 是 一 个 人 让 人 兴奋 且 容 易 失控 的 话题 ! 兴奋 是 因为 我 想 做 一 次 尝试 ， 把 它 的 全 貌 和 细节 说 清楚 ; 容易 失控 是 因为 涉及 点 太 多 ， 一 则 怕 遗 漏 ， 二 则 怕 顾 此 失 彼 。 带 着 这 份 复杂 的 心情 ， 我 们 来 
一 次 自动 化 运 维 的 解析 之 旅 吧 。 说 实话 ， 一 个 运 维 团队 的 运 维 能 力 究竟 如 何 ， 其 实 看 一 个 自动 化 管理 系统 便 可 得 知 ! 


1.1 概述 


作为 开篇 ， 首 先 让 我 们 来 熟悉 一 下 运 维 全 平台 的 规划 体系 吧 ， 如 图 1-1 所 示 。 


很 多 人 看 到 这 样 一 个 架构 图 ， 可 能 会 纳 阅 ， 难 道 对 于 一 个 小 型 企业 来 说 ， 也 要 实施 如 此 复杂 的 运 维 自动 化 体系 吗 ? 其 实 ， 对 于 不 同 规模 的 企业 来 说 ， 对 运 维 自 动 化 的 诉求 的 确 是 不 同 的 。 对 于 大 规模 企 
业 ， 如 BAT， 这 些 能 力 基本 上 都 是 必 不 可 少 的 ;而 对 于 小 型 互联 网 企业 ， 比 如 说 App 开 发 公司 ， 则 核心 的 自动 化 诉求 可 能 更 多 的 是 配置 管理 工具 ， 比 如 说 Puppet、SaltStack 或 Jenkins+Rsync 等 。 


运 维 统一 门户 


运 维 服务 目录 研发 者 服务 目录 
游戏 类 业务 互联 网 金融 业务 金融 类 业务 


ITOA 分 析 平 台 


分 布 式 NoSQL 存储 持续 构建 业务 质量 分 析 平 台 
分 布 式 Cache 服务 持续 审查 机 房 质 量 平台 
RE 
统一 RDS 服务 持续 测试 
a 统 二 文件 S 鼎 、 寺 续 发 布 
突 发 事件 管理 连续 性 管理 对 象 存储 持续 发 布 


分 布 式 消息 
队列 服务 上 


CMDB 统一 接口 层 (API) 


配置 管理 CMDB 
基础 资源 管理 > | 业务 信息 管理 : 逻辑 资源 


ET WT EY 


图 1-1 和 运 维 全 平台 规划 体系 


我 们 不 禁 要 问 ， 有 什么 样 的 准则 可 以 让 我 们 作为 依据 来 判断 何 时 该 如 何 导入 自动 化 ?应 该 导入 自动 化 的 哪些 部 分 ? 当 你 需要 持续 、 频 繁 地 进行 一 些 事情 时 ， 此 时 就 需要 引入 自动 化 ， 比 如 说 版 本 发 布 ， 
如 果 这 个 时 候 你 感觉 到 很 痛苦 ， 那 么 此 时 就 需要 引入 自动 化 了 。 关 于 应 该 导入 自动 化 的 哪些 部 分 ， 我 个 人 的 经 验 是 根据 角色 去 梳理 他 的 工作 现状 (持续 、 频 繁 的 工作 ) ， 然 后 引入 自动 化 的 能 力 ， 再 根据 角 
色 人 数 的 多 与 少 来 确定 事情 的 优先 级 ， 比 如 说 系统 管理 和 业务 发 布 ， 很 明显 业务 发 布 的 优先 级 更 高 ， 因 为 它 的 自动 化 所 带 来 的 人 力 解放 的 收益 更 大 。 当 然 还 有 一 种 更 理想 的 情况 ， 那 就 是 根据 整体 业务 交付 
流 来 构建 ， 以 它 的 全 流程 自动 化 为 目标 ， 此 时 引入 的 是 该 交付 链 上 所 有 的 自动 化 能 力 ， 当 然 对 于 很 多 企业 来 说 ， 这 种 自动 化 实现 的 代价 很 高 ， 而 得 到 的 收益 却 很 小 。 


1.2， 运 维 自动 化 的 三 重 境界 


宋代 禅宗 大 师 青 原 行 思 (六 祖 门 下 首座 ) 提出 参禅 的 三 重 


水 
交 


参禅 之 初 ， 看 山 是 山 ， 看 水 是 水 ; 
禅 有 悟 时 ， 看 山 不 是 山 ， 看 水 不 是 水 ; 
禅 中 彻 悟 ， 看 山 仍然 山 ， 看 水 仍然 是 水 。 


这 三 重 境界 其 实 和 我 们 眼中 运 维 自动 化 的 三 重 境界 是 类 似 的 。 


运 维 自动 化 第 一 重 境 界 : 看 山 是 山 ， 看 水 是 水 。 开 始 接触 运 维 自动 化 的 时 候 ， 我 们 看 到 了 很 多 工具 认为 它们 就 代表 着 自动 化 ， 比 如 说 早期 将 Expect+ SSH 封 装 在 一 起 之 后 ， 就 认为 可 以 实现 批量 运 维 
了 。 看 到 有 人 说 Puppet 可 以 做 配置 管理 ， 这 个 时 候 就 会 认为 Puppet 可 以 做 配置 管理 ， 甚 至 是 发 布 管理 。 这 个 时 期 的 典型 问题 就 是 以 偏 概 全 ， 对 于 某 个 开源 自动 化 工具 来 说 ， 还 没 法 去 界定 它 的 使 用 场景 和 
范围 ， 这 样 将 直接 影响 系统 的 建设 效益 。 这 个 时 候 才 开始 知道 我 们 看 到 的 山 不 是 真正 的 山 ， 而 是 迷雾 环绕 的 深山 。 


由 | 


运 维 自动 化 第 二 重 境界 : 看 山 不 是 山 ， 看 水 不 是 水 。 此 时 我 们 已 经 知道 只 有 Expect+ SSH 还 不 够 ， 随 着 业务 规模 的 变化 ， 我 们 还 需要 一 个 更 完整 的 概念 来 做 发 布 系统 ， 真 正 的 发 布 系统 要 做 版 本 管理 、 
环境 管理 、 配 置 管理 ， 还 有 生命 周期 管理 等 ; 配置 管理 工具 想 让 自动 化 变 得 更 加 完美 ， 其 实 还 要 依赖 于 OS 和 应 用 层 的 标准 化 规范 ， 比 如 说 应 用 交付 规范 、 应 用 打包 规范 、OS 的 统一 等 等 。 对 于 其 他 资源 对 
象 的 管理 来 说 ， 生 命 周期 的 概念 均 穿行 其 中 ， 比 如 说 DNS、LVS、 接 口 、 配 置 、 应 用 包 等 。 为 了 有 效 地 标识 资源 的 生命 周期 状态 。 需 要 用 大 量 的 数据 来 实时 反馈 。 这 是 运 维 自动 化 更 具体 的 层面 ， 将 一 个 个 
的 山 萄 都 看 清楚 了 。 


运 维 自 动 化 第 三 重 境界 : 看 山 还 是 山 ， 看 水 还 是 水 。 这 是 一 种 自动 化 本 质 上 的 追究 ， 站 在 高 山 之 网 ， 俯 览 众 山 ， 会 发 出 原来 如 此 的 感叹 : 所 有 自动 化 的 本 质 都 是 为 了 可 视 化 ， 让 所 有 的 人 看 到 一 致 的 服 
务 ， 从 而 确保 结果 一 致 ， 从 底层 来 说 ， 你 可 以 认为 所 有 自动 化 的 本 质 都 是 指令 + 文件 分 发 的 组 合 ， 你 会 进一步 抽象 系统 的 运 维 自 动 化 能 力 ， 提 供 即 插 即 用 的 机 制 ， 结 合 服务 化 的 需求 ， 进 一 步 云 化 所 有 的 运 
维系 统 ， 确 保 内 外 使 用 的 一 致 性 ， 最 终 自动 化 的 平台 就 是 一 个 整合 的 持续 交付 平台 。 这 是 化 境 ! 


1.3 ” 运 维 自动 化 的 困境 和 价值 


1.3.1 ” 运 维 自动 化 的 困境 


谈 到 运 维 自动 化 的 困境 ， 我 觉得 要 带 着 两 大 行业 特点 去 看 待 这 个 问题 ， 一 个 是 互联 网 行业 、 另 外 一 个 就 是 传统 行业 。 这 两 个 行业 面临 的 运 维 自 动 化 的 困境 完全 不 同 ， 普 遍 的 共性 是 运 维 研发 资源 能 力 的 
不 足 。 


对 于 互联 网 行业 ， 业 务 的 发 展 速度 很 快 ， 底 层 运 维 自 动 化 能 力 可 通过 laaS 公 有 云 来 解决 。 在 OS 之 上 的 运 维 自动 化 ， 则 是 通过 一 些 开源 工具 来 解决 的 ， 比 如 说 Puppet、SaltStack、Ansible 等 。 大 部 分 都 
是 以 开源 工具 为 主 ， 开 源 产 品 的 引入 ， 也 在 不 断 加 大 维护 的 难度 和 复杂 度 ， 带 来 的 另外 一 个 问题 就 是 平台 可 扩展 的 能 力 非常 弱 。 所 以 一 般 成 规模 的 互联 网 企业 ， 最 后 都 走向 了 自 研 的 道路 。 不 过 有 利于 互联 
网 行业 运 维 平台 建设 的 条 件 是 互联 网 的 基础 比较 标准 ， 在 硬件 和 软件 的 差异 上 不 像 传统 企业 那么 大 。 


对 于 传统 行业 ， 业 务 的 互联 网 是 瞬间 展开 的 ， 另 外 传统 的 封闭 式 系统 架构 也 走向 了 开放 式 x86 架 构 ， 导 致 运 维 维护 的 基础 设施 对 象 和 上 层 的 业务 对 象 提升 了 一 个 数量 级 。 而 传统 企业 的 运 维 手 段 之 前 都 依 
赖 于 商业 产品 和 人 肉 运 维 等 方式 。 


无 论 是 成 规模 的 互联 网 企业 还 是 传统 企业 ， 在 业务 的 倒 晕 之 下 ， 运 维 的 突破 力 都 是 不 断 向 前 的 ， 但 是 这 个 整体 的 规划 蓝图 是 什么 样 的 、 实 施 路 径 如 何 、 需 要 什么 样 的 方法 论 ， 则 需要 有 一 个 全 面 的 解 


答 
合 。 


1.4 运 维 自动 化 的 多 维 解读 


1.4.1 ”基于 应 用 变更 场景 的 维度 划分 


我 们 曾经 探讨 过 ， 所 有 运 维 的 价值 导向 最 终 都 是 面向 业务 、 面 向 用 户 ， 所 以 自然 而 然 就 需要 从 业务 的 维度 进行 划分 。 而 运 维 是 有 很 多 种 场景 的 ， 但 从 业务 的 角度 来 说 ， 核 心 的 业务 场景 一 般 就 包括 如 下 5 
种 : 业务 上 线 、 业 务 下 线 、 业 务 扩容 、 业 务 缩 容 和 应 用 升级 。 下 面 将 以 其 中 一 种 场景 为 例 ， 将 整个 流程 穿 起 来 看 看 ， 以 此 识别 流程 的 节点 到 底 对 接 了 哪些 系统 ?针对 其 他 的 业务 场景 ， 我 们 也 可 以 用 同类 的 
方法 进行 分 析 。 首 先 预 设 业 务 的 架构 如 图 1-2 所 示 。 


逻辑 控制 层 ( 自 研 服务 ) 


图 1-2 ”业务 架构 示例 图 


(1) 业务 上 线 。 表 示 上 线 一 个 完整 的 应 用 。 从 无 到 有 部 署 整个 业务 上 线 ， 具 体 的 流程 如 图 1-3 所 示 。 


仔细 看 图 1-3 中 所 示 的 流程 ， 我 们 会 发 现 该 流程 涉及 多 个 系统 ， 每 个 系统 所 完成 的 职能 又 都 有 不 同 ， 这 里 只 是 大 概 地 描述 了 一 下 。 但 一 旦 将 这 个 流程 清晰 地 梳理 出 来 ， 我 们 就 能 知道 真正 地 将 一 个 应 用 全 
部 上 线 到 底 有 多 复杂 了 。 但 看 完 图 1-3 又 会 觉得 其 实 比较 简单 了 ， 因 为 从 业务 上 线 的 流程 来 看 ， 我 们 只 需要 一 个 上 层 的 流程 调度 引擎 再 加 上 对 应 的 执行 器 ， 执 行 器 通过 API 和 底层 的 各 个 系统 对 接 即 可 。 这 也 
是 为 什么 之 前 在 框架 图 (图 1-2) 中 ， 要 求 各 个 专业 系统 一 定 要 向 上 提供 API， 并 且 要 求 这 个 API 的 风格 必须 是 一 致 的 。 


业务 上 线 流程 图 
阶段 职 


关联 系统 


口 CMDB 从 资源 池 中 获取 到 需要 的 OS。 对 于 


壕 笑 弗 妆 光 


民 闪 党 及 说 娄 撤 


天 
性 
服 
务 
和 
请 


最 复杂 的 业务 上 线 流程 梳理 完成 之 后 ， 业 务 下 线 其 实 很 简单 ， 它 是 上 线 过 程 的 逆 过 程 ， 上 线 负责 装 ， 下 线 负责 拆 。 


: J 


公有 云 Iaas 资源 


口 虚拟 机 平台 


配置 管理 工具 ， 
类 似 于 Puppet、 
SaktStack 或 其 他 


持续 部 署 管理 系统 


持续 部 署 管 理 系 统 


口 DNS 管理 系统 
口 LVS 管理 系统 
口 Server 管理 系统 
口 存储 服务 

口 Cache 服务 

口 名 字 服 务 


测试 自动 化 系统 


口 监控 系统 
口 数据 采集 系统 
口 CMDB 系统 


图 1-3 ”业务 上 线 流程 


传统 非 云 模式 ， 此 时 CMDB 一 般 作为 
资源 池 。 而 对 于 云 模式 ， 需 要 申请 的 
则 及 时 申请 ， 采 用 按 需 申请 的 模式 


无 论 是 从 资源 池 获 取 服 务 需 还 是 从 
云端 获取 资源 ， 此 时 不 同 的 业务 对 OS 
环境 的 依赖 也 有 所 不 同 ， 比 如 说 一 些 
内 核 参数 和 用 户 等 


根据 应 用 的 需要 去 执行 相应 的 部 
署 ， 比 如 说 发 布 Nginx、 发 布 Tomcat、 
发 布 MySQL 、 发 布 MC。 服 务 的 云端 
能 力 越 剖 ,这 块 的 工作 量 就 越 小 ， 比 
如 说 MySQL， 如 果 是 获取 一 个 存储 服 
务 的 方法 ， 就 简单 多 了 

把 与 应 用 关联 的 应 用 包 发 布 出 去 ， 
这 个 和 上 面 的 步骤 有 一 个 明显 的 区 别 ， 
上 面 的 步骤 是 执行 组 件 的 发 布 ， 不 带 
业务 态 。 这 个 是 带 着 业务 态 的 执行 。 
比如 说 发 布 Tomcat 的 war 包 、MySQL 
的 数据 库 初 始 化 

比如 说 DNS、LVS、MySQL 存储 服 
务 、MC 服务 等 。 当 前 我 们 把 MySQL 
和 MC 都 打包 成 服务 ， 可 以 一 键 申请 ; 
PaaS 系统 精髓 也 就 在 这 儿 。 名 字 服 务 ， 
把 业务 之 间 的 访问 关系 启用 起 来 ， 确 
保 访 问 可 正确 完成 


和 测试 那 边 的 自动 化 测试 系统 对 接 ， 
自动 对 测试 进行 对 接 


监控 系统 启用 监控 、 数 据 采 集 系 统 
开始 采集 数据 、CMDB 沉淀 系统 的 配 
置 ， 比 如 说 机 器 上 运行 了 什么 应 用 ， 
什么 进程 等 


业务 上 线 之 后 ， 随 着 用 户 活跃 度 的 上 升 ， 业 务 的 容量 逐渐 会 出 现 不 足 的 情况 ， 此 时 就 需要 进行 业务 扩容 。 业 务 扩容 其 实 很 简单 ， 当 某 类 节点 出 现 不 足 的 时 候 ， 就 对 它 进行 扩容 。 业 务 扩容 所 要 做 的 变 
更 ， 其 实 都 是 业务 上 线 的 子 流程 。 比 如 说 如 果 Web 层 容量 不 够 ， 那 就 申请 机 器 ， 安 装 组 件 、 下 发 应 用 包 ， 进 行 自 动 化 测试 。 这 个 时 候 需要 注意 的 是 : 在 业务 上 线 的 过 程 中 ， 我 们 把 很 多 的 配置 信息 都 下 放 到 
CMDB 中 了 ， 因 此 我 们 在 选择 扩容 的 时 候 ， 就 要 从 CMDB 中 把 信息 读 取出 来 ， 以 指导 变更 。 


应 用 升级 ， 目 前 持续 集成 所 讲 的 自动 化 都 集中 在 这 块 。 简 单 来 讲 ， 就 是 升级 程序 包 、 升 级 配置 、 执 行 额外 的 指令 等 ， 一 般 来 说 逃脱 不 了 这 几 种 模式 。 读 者 可 能 会 问 ， 如 果 正 如 你 所 说 的 这 么 简单 ， 那 么 
是 不 是 将 SSH 封 装 成 一 个 UI 就 可 以 了 。 当 然 不 是 ， 这 个 时 候 还 需要 你 以 对 运 维 的 理解 ， 在 底层 进行 一 些 标准 化 的 工作 ， 和 否则 你 提供 的 就 只 是 一 个 工具 ， 而 完全 没有 运 维 的 思路 ， 比 如 说 程序 运行 属 主 、 运 行 
路 径 、 监 控 的 策略 等 。 另 外 建设 应 用 发 布 平台 的 目的 就 是 要 让 测试 和 生产 环境 的 运 维 变 得 更 可 控 。 


以 上 几 个 运 维 场景 的 自动 化 是 否 要 一 次 性 全 部 做 完 呢 ”当然 不 是 ， 它 们 也 是 有 先后 和 主 次 之 分 的 。 对 于 以 上 的 运 维 场景 ， 我 在 当前 所 负责 的 游戏 运 维 中 做 过 统计 ， 数 据 如 图 1-4 所 示 。 


游戏 运 维 服务 化 平台 _ 部 署 次 数 


生产 
测试 
国 Total 
四 12 月 份 
开发 国 11 月 份 
口 10 月 份 
0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 1600.0 1800.0 2000.0 
开发 测试 生产 
209.0 1777.0 1344.0 1 
138.0 1058.0 641.0 | ”2000 次 /月 
目 11 月 份 51.0 472.0 437.0 
口 10 月 份 20.0 247.0 266.0 _ 


图 1-4 持续 部 署 的 数量 


(2) 持续 部 署 的 数量 ， 一 个 月 2000 次 左右 。 


(3) 其 他 场景 的 分 布 情况 。 一 个 月 上 线 一 次 、 下 线 两 次 、 扩 容 一 次 左右 。 


有 了 这 个 数据 ， 我 们 在 建设 一 个 自动 化 系统 的 时 候 ， 就 能 意识 到 应 该 先 做 什么 后 做 什么 。 当 然 ， 不 同 的 企业 有 不 同 的 实际 情况 ， 还 是 应 该 找到 核心 痛 点 ， 而 不 是 一 上 来 就 建设 完整 的 业务 变更 系统 ， 那 
样 不 仅见 效 不 快 ， 且 容易 让 项 目 收益 不 大 ， 从 而 遇 到 很 大 的 阻力 。 


1.5” 运 维 自动 化 的 方法 论 


1. 全 局 驱动 


无 论 是 全 部 自动 化 管理 平台 的 规划 ， 还 是 某 个 平台 的 规划 ， 都 希望 大 家 能 够 找到 一 个 全 局 的 立足 点 。 比 如 说 我 们 当时 成 立 持续 部 署 服务 平台 的 时 候 ， 大 家 把 全 局 的 目标 对 齐 于 提高 产品 交付 的 速度 和 质 
， 开 发 、 测 试 、 运 维 很 快 就 达成 共识 了 。 目 前 这 个 平台 建设 完成 之 后 ， 运 维 已 经 从 发 布 变 更 流程 中 彻底 退出 了 ， 真 正 实现 了 让 运 维 变 成 审核 者 。 


即 


2. 分 而 治之 


从 上 面 的 几 个 维度 中 可 以 看 到 有 很 多 系统 ， 如 果 每 个 系统 都 要 建设 的 话 ， 那 么 周期 和 难度 都 将 很 大 。 所 以 需要 分 而 治之 ， 特 别 是 线 上 架构 组 件 的 管理 系统 ， 更 需要 随 着 组 件 的 交付 一 并 交付 运 维 管理 能 
力 ， 比 如 面向 组 件 的 自动 化 管理 能 力 、 运 维 的 监控 能 力 、 运 维 的 数据 分 析 能 力 等 。 之 前 我 也 表达 过 类 似 的 观点 ， 所 有 只 交付 组 件 ， 不 交付 管理 能 力 的 研发 都 是 要 流 误 。 因 为 从 运 维 的 角度 来 说 ， 这 样 低 价 值 
的 交付 产品 越 多 ， 越 会 导致 运 维 不 堪 重 负 。 而 如 果 让 运 维 从 头 去 构建 这 个 管理 ， 则 他 们 需要 花费 很 多 的 时 间 去 了 解 ， 从 而 导致 系统 建设 周期 拉 长 。 举 个 例子 ， 比 如 说 某 个 分 布 式 cache 服 务 ， 做 得 不 好 的 ， 
是 通过 读 取 日 志 然后 对 其 进行 监控 ; 做 得 好 的 ， 是 给 你 开启 一 个 管理 端口 ， 让 你 从 端口 中 读 取 状 态 信息 。 这 就 大 大 降低 了 系统 的 复杂 度 (不 用 进行 日 志 采 集 和 处 理 组 件 了 ) 。 


分 而 治之 ， 其 实 就 是 让 不 同 的 团队 做 不 同 的 事情 ， 不 要 将 所 有 事情 全 部 压 给 运 维 ; 其 次 不 同 的 时 期 建设 不 同 的 系统 ， 不 要 在 同一 时 刻 做 很 多 系统 ， 从 而 避免 战线 过 长 。 当 然 如 果 有 很 多 运 维 研发 人 员 的 
话 ， 就 另 当 别论 了 。 


3. 自 底 向 上 


自 底 向 上 ， 其 实 是 让 大 家 找到 一 个 更 清晰 更 具体 的 系统 建设 目标 来 展开 工作 。 从 系统 分 解 上 ， 来 让 大 家 规避 被 一 个 庞大 而 模糊 的 目标 带 入 歧途 。 如 果 一 上 来 ， 我 们 就 说 要 做 一 个 全 自动 的 运 维 管理 系 
统 ， 那 样 很 容易 就 会 让 运 维 研发 团队 迷失 方向 。 所 以 这 里 可 以 先 设 定 全 局 和 最 终 目标 (全 自动 化 ) ， 然 后 从 底层 逐步 构建 地 基 ， 做 框架 ， 最 后 再 盖 一 个 完整 的 房子 ， 详 见 图 1-1。 


4 边界 清晰 


边界 有 两 个 维度 ， 一 个 是 管理 边界 ; 一 个 是 职能 边界 。 


首先 是 管理 边界 ， 其 是 从 Owner 的 角度 出 发 的 ， 谁 产生 服务 ， 谁 就 是 Owner， 管 理 统一 都 是 运 维 。 比 如 研发 提供 了 一 个 统一 的 分 布 式 消息 队列 服务 ， 那 么 Owner 就 是 研发 ， 他 应 该 对 可 运 维 性 负 第 一 责 


任 ， 不 要 让 运 维 去 承担 这 个 服务 的 WebAdmin 管 理 系统 建设 任务 。 


其 次 是 职能 边界 ， 深 层次 的 理解 是 组 件 的 功能 范围 。 对 运 维 架 构 师 的 考验 也 就 在 这 儿 ， 比 如 说 让 LVs 去 承担 业务 异常 的 容 灾 和 容错 切换 是 不 合适 的 ; 让 DNS 跨 过 LVSs 层 ， 负 责 后 端 服务 异常 的 自动 容错 处 
理 也 是 不 合适 的 。 如 果 不 把 职能 界定 清楚 ， 将 会 导致 系统 做 很 多 无 用 功 ， 这 会 增加 系统 建设 的 复杂 度 。 


5. 揪 件 化 


播 件 化 的 思维 无 处 不 在 ， 在 面 对 纷 繁复 杂 的 管理 对 象 时 ， 我 们 进行 抽象 ， 提 供 管理 模式 ， 然 后 将 具体 的 实现 交 给 用 户 ， 这 点 在 我 们 日 常 所 见 的 运 维系 统 中 经 常 可 以 看 到 ， 比 如 说 Nagios 就 是 一 种 插件 化 
的 采集 思路 。 对 于 配置 管理 来 阅 ，Puppet 采 用 的 也 是 这 个 思路 。 对 于 最 上 层 的 调度 管理 系统 ， 可 以 让 运 维 自己 去 编写 执行 器 ， 特 别 是 和 业务 紧密 相关 的 ， 但 最 终 运 维 整个 控制 权 还 是 要 交 给 平台 。 我 的 经 验 
是 ， 在 应 用 服务 层 和 架构 服务 层 ， 不 要 引入 播 件 化 的 管理 方案 ， 过 多 的 插件 化 部 署 ， 会 让 生产 环境 的 管理 最 终 混乱 不 堪 ， 甚 至 失控 。 所 以 提供 类 SSH 界 面 的 运 维 发 布 和 部 署 平台 ， 是 没有 任何 运 维 价值 的 。 


1.6 “ 运 维 自动 化 系统 的 实现 


挑战 自动 化 的 极致 场景 (可视化 ) ， 是 运 维 人 员 对 极致 的 追求 。 极 致 的 自动 化 是 运 维 事务 全 流程 的 自动 化 ， 运 维 事务 全 流程 自动 化 是 包含 了 一 次 应 用 完整 交付 所 涉及 的 所 有 资源 的 自动 化 能 力 ， 比 如 说 
DNS 资源 、 负 载 均衡 资源 、 数 据 库 资 源 、 服 务 器 资源 、 配 置 资源 等 。 下 面 将 列举 几 个 典型 的 运 维 自动 化 系统 以 供 大 家 参考 。 


1.7，” 运 维 自动 化 系统 的 API 参 考 实现 


所 有 的 底层 系统 都 是 通过 API 对 外 提供 服务 的 ，API 可 供 各 个 系统 使 用 。 接 口 的 使 用 需要 通过 授权 来 获得 ， 建 议 这 个 授权 可 以 是 基于 系统 级 别 的 ， 也 可 以 是 接口 级 别 的 ， 而 不 是 采用 统一 开放 的 模式 。 另 
外 接口 内 需要 有 相应 的 一 些 权限 控制 ， 以 避免 底层 服务 被 任意 操作 。 


可 以 仿照 AWS 的 接口 实现 方式 ， 统 一 实现 API 的 接口 开放 访问 地 址 ， 同 时 统一 协议 (HTTP、HTTPS) ， 协 议 可 以 使 用 Get 的 方式 进行 访问 。 图 1-14 所 示 是 一 个 开放 API 的 结构 。 


CT 
API 调用 的 服务 入 口 http://auto.**.com/ 


每 个 API 调用 都 需要 包含 公共 包含 了 颁发 的 access 1d、 时 间 惟 、 API 版 本 、 签 
m IPTT pa 


名 、 签 名 的 方法 (shal 、md5 ) 等 


API 指令 的 名 称 ， 例 如 newrdsinstance 等 每 个 系统 都 需要 注册 统一 的 服务 名 到 服务 中 心 


指令 参数 。 对 任何 一 个 指令 来 说 ， 都 应 该 
\ 里 有 双 日 
en 在 界面 化 的 API 中 心里 有 统一 的 在 线 说 明 手 册 


图 1-14 ”开放 API 的 结构 


1.8” 运 维 自动 化 依赖 的 团队 模型 


下 面 将 从 能 力 模型 、 驱 动 模型 和 技能 模型 三 个 角度 来 曾 述 运 维 团队 和 个 人 的 能 力 要 求 ， 最 后 给 出 一 个 参考 的 组 织 结构 。 
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1.9 小 结 


无 论 是 传统 企业 还 是 中 小 型 互联 网 公司 ， 运 维 自动 化 都 是 当前 运 维 阶段 的 核心 能 力 。 实 现 了 运 维 自动 化 ， 传 统 的 人 肉 运 维 状 况 才 会 被 改变 ， 才 会 有 更 多 的 精力 去 思考 更 大 的 运 维 价值 。 在 建设 运 维 自动 
化 平台 的 过 程 中 ， 对 运 维 自动 化 的 需求 进行 清晰 的 识别 、 界 定 、 规 划 和 落地 是 很 考验 运 维 研 发 者 能 力 的 事情 ， 本 章 从 整体 规划 入 手 ， 给 出 了 一 些 具体 的 方法 论 ， 同 时 还 给 出 了 几 个 实现 的 例子 ， 目 的 是 帮助 
大 家 看 到 一 条 清晰 的 建设 路 径 。 


第 2 章 ”利用 Facter 和 Django 快 速 构 建 CMDB 


作者 简介 
陈 立 军 ， 人 金山 西山 居 DevOps， 原 新 浪 研 发 系统 开发 。 


刘 字 ， 网 名 守住 每 一 天 ， 爹 山西 山居 架构 师 ，《Puppet 实 战 》 一 书 作者 ，《Puppet 实 战 手册 》 译 者 之 一 ， 《Python 高 级 进 阶 》 译 者 之 一 ，InfoQ 社 区 编辑 ， 自 动 化 运 维 专家 。 


CMDB (Configuration Management Database) ， 又 称 配置 管理 数据 库 ， 更 多 的 时 候 我 们 习惯 将 其 称 为 资产 管理 系统 。 它 既是 ITIL 标 准 体系 的 核心 ， 又 是 运 维 的 基础 核心 系统 。 它 通常 位 于 整个 运 
维 自动 架构 的 底层 ， 但 在 运 维 自动 化 体系 中 ， 它 又 起 到 了 极其 关键 性 的 作用 。 据 我 个 人 了 解 目前 很 多 中 小 型 企业 ， 乃 至 一 些 中 大 型 互联 网 公司 ， 都 还 在 采用 传统 的 Excel 来 管理 资产 。 


采用 Excel 维 护 资产 时 ， 需 要 耗费 大 量 的 人 力 和 精力 ， 这 些 工 作 包括 : 数据 的 采集 、 整 合 、 记 录 、 维 护 、 检 验 和 更 新 ， 每 一 项 都 比较 繁琐 。 而 采用 开源 CM DB 系统 却 又 不 够 灵活 ， 无 法 和 公司 的 其 他 系统 


相 结 合 。 面 对 这 些 问题 ， 自 行 研发 一 套 适用 于 公司 的 CMDB 系 统 ， 是 当务之急 。 


本 章 将 会 详细 讲解 ， 如 何 利用 开源 软件 Facter 和 Django 快 速 构 建 一 个 小 型 的 CM DB 系统 。 界 面 与 功能 不 算 复杂 ， 这 也 是 它 轻 量 的 体现 ， 本 章 更 多 的 是 提供 一 种 思路 ， 以 达到 抛砖引玉 的 作用 ， 仅 供 大 家 
参考 。 


说 明 


本 章 的 所 有 代码 都 托管 在 Github 网 站 上 https://github.com/oysterclub/open-cmdb。 其 中 脚本 集中 在 CMDB 目 录 中 。 


2.1 CMDB 简 介 


CMDB 用 于 存储 和 管理 企业 IT 架构 中 各 种 设备 的 配置 信息 ， 其 中 包括 主机 、 项 目 、 用 户 、 机 房 、 网 络 等 。 其 被 认为 是 ITIL 服 务 管理 的 核心 ， 所 有 流程 所 需要 使 用 的 配置 信息 都 将 通过 CM DB 来 进行 获 


取 ， 例 如 监控 、Dashboard、 自 动 化 、 流 程 等 。CMDB 在 企业 IT 架构 中 的 核心 地 位 如 图 2-1 所 示 。 


流程 控制 UI 服务 化 


用 品 监控 


图 2-1 CMDB 的 核心 地 位 


CMDB 特 性 如 下 : 


“ 设备 信息 统一 化 、 标 准 化 。 


“ 设备 信息 可 维护 性 更 强 。 


“ 设备 信息 关系 清晰 化 、 可 视 化 。 


“ 设备 信息 的 查询 、 更 新 更 快 。 


当然 ， 在 实际 生产 中 ， 会 对 上 述 特性 和 涵盖 范围 有 轻重 大 小 的 区 分 ， 为 了 能 够 更 加 合理 、 更 加 准确 地 设计 出 适合 自 有 业务 模式 的 CMDB， 下 面 我 们 来 看 下 几 大 主流 开源 CMDB 是 如 何 设计 的 。 


2.2 ”开源 CMDB 介 绍 


目前 主流 的 开源 CMDB 软 件 包括 : OneCMDB、CMDBuild、ltop CMDB、Rapid OSS、ECDB、i-doit 等 ， 其 中 比较 出 名 的 是 前 二 者 ， 因 此 本 节 将 重点 对 比 这 两 款 开源 软件 。 


2.3 Puppet 及 Facter 介 绍 


本 节 所 要 讲 的 不 是 重复 造 轮子 ， 而 是 如 何 有 效 地 利用 开源 工具 构建 自己 的 平台 。 首 先 我 们 来 看 看 CMDBuild 操 作 界面 ， 如 图 2-4 所 示 。 


Write Puppet agent 
Write 
Write Zabbix API 
Read 
slave DB Server Write TPMI 
Write 
Rync 0 Write Cmdb agent 


2-4 CMDBuild 操 作 界面 


从 图 2-4 中 可 以 看 出 ，CMDB 的 信息 收集 可 以 是 多 种 多 样 、 共 融 共存 的 : 


(1) 通过 一 些 Agent 客 户 端 收集 信息 ， 然 后 注册 到 中 心服 务 器 数据 库 。 


(2) 通过 监控 系统 收集 ， 比 如 Zabbix、Nagios、IPMI 等 。 


(3) 通过 配置 管理 工具 收集 ， 比 Puppet、SaltStack、Ansible 等 。 


我 在 本 文中 使 用 配置 管理 工具 Puppet 的 Facts 来 进行 信息 收集 ， 最 主要 的 原因 是 ， 目 前 我 使 用 的 是 Puppet 来 管理 所 有 的 机 器 ， 因 此 使 用 Facts 最 方便 、 简 单 、 快 捷 ， 成 本 低 而 且 效 率 高 ， 如 果 读 者 使 用 
的 是 Ansible 或 其 他 配置 管理 工具 来 做 管理 ， 本 文中 所 介绍 的 方法 也 可 以 通用 。 


2.4 如 何 利用 Python 获取 Facts 


2.4.1 工作 原理 


网 


2-6 


通过 2.3 节 的 学 习 可 以 知道 Facts 可 以 获取 主机 的 系统 信息 ， 并 以 K-V 形 式 进行 存储 ， 我 们 只 需要 处 理 Puppet Server 收 集 的 Agent Facts 信 息 、 入 库 ， 然 后 通过 Django 来 读 取 数据 库 信息 即 可 ， 如 
所 示 。 


User 


Python 
handle 


Django 


Puppet 
master 


2-6 Facts 信 息 获取 流程 图 


2.5 ”使 用 Django 快 速 构建 CMDB 系 统 


2.5.1 ”Django 介绍 


Django 是 一 个 免费 的 、 开 源 的 Web 框 架 ， 由 Python 语言 编写 ， 由 于 其 是 在 一 个 快 节奏 的 新 闻 编 译 室 环境 中 开发 出 来 的 ， 因 此 它 的 设计 目的 是 让 普通 开发 者 的 工作 变 得 简单 。 Django 遵 循 模型 -视图 - 控 
制 器 (MVC) 框架 模式 ， 目 前 由 一 个 非 僵 利 的 独立 组 织 的 软件 基金 会 (DSF) 维持 。 


Django 鼓 励 快速 开发 和 干净 实用 的 设计 。Django 可 以 更 容易 更 快速 地 构建 更 好 的 Web 应 用 程序 。 它 是 由 经 验 丰富 的 开发 人 员 来 创建 的 ， 省 去 了 Web 开 发 的 很 多 麻烦 ， 因 此 你 可 以 专注 地 开发 应 用 程序 
而 不 需要 去 白费 力气 地 重复 工作 。 


Django 目 前 已 经 被 运 维 圈 广泛 使 用 ， 本 文 在 此 不 会 详细 介绍 Django 的 基础 知识 ， 有 兴趣 的 朋友 可 以 去 Django 官 网 查看 更 为 详细 的 介绍 ， 同 时 也 有 Django 中 文 文档 可 供 学 习 。 


2.6 ”高 级 进 阶 


2.6.1 ”历史 查询 功能 


操作 历史 ， 应 该 是 管理 系统 必 备 的 功能 之 一 。Django-echelon 就 是 一 个 很 好 的 功能 模块 ， 该 功能 模块 可 以 单独 使 用 于 任何 的 Django 项 目 中 ， 非 常 方 便 ， 接 下 来 我 们 讲解 如 何 将 该 功能 添加 到 CMDB 系 
统 中 ， 设 置 步骤 具体 如 下 。 


(1) 修改 settings.py 设 置 。 


@ 添 加 echelon APP: 


INSTALLED APPS = ( 
'http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach e 
'echelon', 


@ 添 加 echelon 中 间 件 : 


MIDDLEWARE CLASSPS = ( 
'http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach e 
'echelon.middleware.EchelonMiddleware', 


(2) 修改 urls.py 设 置 : 


# encoding:utf8 
from django.conf.urls import patterns, include, url 
urlpatterns = patterns('', 
'http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/. .http://waw.hzcourse.com/res 
# 操作 历史 


url(r'^cmdb/changelog/', include('echelon.urls')), 


(3) 将 echelon 代 码 复制 到 Django 项 目的 主 目录 中 ， 将 html 代 码 复制 到 templates 目 录 中 。 


(4) 刷新 DB， 创 建 数据 表 : 


$ Python manage.py syncdb 


(5) 把 操作 历史 的 URL 人 信息 添加 到 前 端 页 面 的 导航 栏 中 就 可 以 了 (配置 cmdb/cmdb_menu.py 程 序 ) ， 具 体操 作 如 下 : 


CMDB TOP MENU = [ 

'http://wuw.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach e 
# 导 航 名 称 、URL、 图 标 、 子 导航 信息 

[u' 操 作 历 史 !， 'Vcmdb/changelog/'，'time'，[]]， 

] 


(6) 启动 Django 服 务 ， 打 开 前 端 页 面 ， 然 后 点 击 操作 历史 ， 就 可 以 看 到 用 户 的 操作 信息 了 ( 见 图 2-14) ， 具 体 如 下 。 


查询 操作 历史 可 按 表 名 称 / 操 作 人 /操作 内 容 关键 字 
称 : 过 油 表 名 称 国 | 用 户 :过 油 用 户 变更 :过滤 变更 内 容 


洲 
> je 
攻 


2016-06-20 23:09:16 
2016-06-20 23:06:58 
2016-05-02 12:03:02 
(auth.permission) cmdb | upload_file_message | Can add upload_file_message 

(auth.permission) cmdb | upload file_message | Can change upload file message 
(auth.permission) cmdb | upload file_message | Can delete upload file_message 


2016-05-02 12:02:36 
2016-05-02 12:02:36 
2016-05-02 12:02:36 
(auth.permission) cmdb | travel | Can add travel 2016-05-02 12:02:36 
(auth.permission) cmdb | travel | Can change travel 2016-05-02 12:02:36 


(auth.permission) cmdb | travel | Can delete travel 2016-05-02 12:02:36 


动作 
luyu add 
None change 
None change 
None delete 
None delete 
None delete 
None delete 
None delete 
None delete 
None delete 


(auth.permission) cmdb | provider | Can add provider 2016-05-02 12:02:36 


2-14 用户 的 操作 信息 


以 上 代码 都 可 以 在 open-cmdb 库 上 找到 源 代码 。 


2.7 小结 


无 论 IT 系统 多 么 庞大 或 微小 ， 也 无 论 提 供 的 服务 是 多 是 少 ， 是 繁杂 还 是 单一 ， 作 为 实际 管理 和 掌控 这 套 系统 和 服务 的 读者 来 说 ， 必 须要 明确 的 一 点 是 : 人 是 整个 系统 中 最 薄弱 和 不 可 预测 的 一 环 。 如 果 
由 人 工 来 进行 维护 ， 那 么 数据 不 准确 的 情况 100% 是 会 出 现 的 。 而 通过 程序 自动 采集 数据 ， 进 行规 则 入 库 这 种 自动 化 操作 ， 则 使 数据 达到 100% 的 准确 率 成 为 了 现实 。 


本 文 所 展现 的 快速 构建 方法 ， 仅 仅 是 整套 优化 、 完 善 动作 的 持续 进行 步骤 中 的 一 个 环节 ， 但 此 方法 不 但 可 以 实现 CMDB 的 快速 构建 ， 还 对 整个 运 维 体系 的 建立 、 自 动 化 平台 架构 的 完善 ， 也 有 非常 重要 
的 参考 价值 和 借鉴 意义 。 


最 后 希望 读者 能 通过 对 本 文 的 阅读 ， 不 仅 能 够 构建 出 属于 自己 的 、 定 制 化 的 CMDB 平 台 ， 还 能 通过 更 深入 的 思考 ， 为 完善 运 维 工 作 、 完 美 自动 化 平台 增加 更 多 更 深刻 的 理解 认 知 。 


第 3 章 ”数据 中 心 搬迁 中 的 x86 自 动 化 运 维 


作者 简介 


吴 传 玉 ， 具 有 10 年 以 上 x86 服 务 器 平台 系统 管理 经 验 ， 熟 悉 Windows 及 Redhat Linux 系 列 运 维 ， 自 2008 年 接触 VMware 虚 拟 化 产品 ， 获 得 RHCT、VMware VCP 和 HCNA 认 证 。 善 于 使 用 各 类 脚本 工具 编制 日 常 
运 维 的 脚本 。 目 前 就 职 于 某 大 型 金融 企业 基础 设施 运 维 部 门 ， 负 责 容 灾 及 研发 测试 环境 x86 整 体 运 维 工 作 。 


本 章 主 要 介绍 在 大 型 数据 中 心 搬迁 的 过 程 中 ， 如 何 利用 自行 编制 的 各 类 脚本 ， 低 成 本 、 高 效率 又 准确 地 完成 大 量 节点 的 逻辑 搬迁 工作 。 


3.1 数据 中 心 搬迁 准备 


3.1.1 数据 中 心 搬 迁 介绍 


世间 万 物 都 存在 着 自身 的 生命 周期 ， 大 到 宇宙 恒星 的 诞生 与 消亡 ， 小 到 细胞 从 一 次 分 裂 完 成 开始 到 下 一 次 分 裂 结束 所 经 历 的 全 过 程 ， 都 离 不 开 生命 周期 。 


作为 承载 着 公司 核心 竞争 、 运 维 能 力 的 数据 中 心 ， 也 无 法 回避 生命 周期 的 问题 。 当 数据 中 心 的 空间 、 电 力 等 
案 ， 以 满足 日 益 增长 的 业务 需求 。 第 一 种 是 在 保持 现 有 数据 资源 不 变 的 情况 下 ， 建 立 第 二 个 数据 中 心 ( 非 容 灾 中 心 ) ; 


采 


第 一 种 方式 ， 可 以 平滑 地 进行 扩容 ， 但 从 长 远 来 看 双 倍 的 运 维 成 本 会 加 重 公司 的 负担 。 如 果 采 


基础 硬件 无 法 支持 公司 业务 需求 的 高 速 扩 ， 
另 一 种 是 新 建 一 个 条 件 更 优越 的 数据 中 心 以 替代 旧 的 数据 中 心 。 


展 时 ， 公 司 的 决策 层 势必 会 考虑 采 


更 合理 的 方 


司 节省 可 观 的 运 维 开支 ， 主 要 的 成 本 仅 在 于 一 次 性 搬迁 的 方案 所 承担 的 开支 。 


大 型 金融 企业 中 ， 基 础 运 维和 人员 相对 于 应 
系统 的 基础 需求 。 总 结 起 来 就 是 底层 硬件 架构 多 元 化 、 需 求 科 


运 维 、 开 发 人 员 、 测 试 人 员 来 说 是 
类 多 、 运 维 量 大 ， 如 果 涉 及 搬迁 则 工作 量 更 大 更 繁琐 。 


我 


要 负责 的 是 x86 平 台 的 非 生产 环境 


成 本 、 高 效 准 确 地 完成 大 量 节点 的 逻辑 搬迁 工作 。 


首先 介绍 一 下 物理 搬迁 与 逻辑 搬迁 的 对 比 。 


数据 中 心 的 搬迁 一 般 分 为 两 类 : 物理 搬迁 和 逻辑 搬迁 。 


如 果 物 理 设 备 及 其 上 的 逻辑 节点 数量 少 目 搬迁 距离 较 短 ， 对 可 


如 果 涉 及 的 节点 数量 多 且 搬 迁 距离 较 长 ， 对 可 


性 要 求 较 高 ， 无 法 满足 短期 停机 的 要 求 ， 则 需要 考虑 逻辑 搬迁 。 


3.2 利用 VMware 脚本 简化 虚拟 化 层 的 搬迁 


我 们 需要 在 完成 ESXI 安 装 后 执行 如 下 虚拟 化 层 


(1 


为 安装 完成 的 ESXI 开 通 ESXI Shell 和 远程 SSH 功 能 ， 


的 操作 : 


确保 可 以 批量 管理 ESXI。 


(2) 打开 VMware 底层 的 VMotion 功 能 以 保证 虚拟 机 的 灵活 迁移 。 


(3 


(4) 批量 挂 载 外 挂 存储 ， 以 确保 虚拟 机 


(5 


(6) 将 源 端 vCenter 的 


为 ESXI 建 立 VvSwitch， 并 新 建 port group (也 就 是 网 络 交换 机 的 概念 ， 这 种 技术 也 称 之 为 VLAN) ， 以 保证 注册 的 虚拟 机 节点 全 


注册 虚拟 机 至 vCenter。 


节点 有 可 用 的 空间 。 


(7) 在 vCenter 显 示 界 


(8) 启动 虚拟 机 。 


录 结 构 复制 到 目标 端 vCenter， 并 将 虚拟 机 移动 至 指定 的 位 置 。 


为 每 个 虚拟 机 改名 ， 并 配置 对 应 的 port group。 


3.3 ”利用 批 处 理 与 Shell 脚 本 简化 逻辑 节点 的 搬迁 


| 


众所周知 ， 对 于 服务 器 的 搬迁 ， 不 只 会 涉及 物理 / 


如 果 管理 的 服务 器 台数 比较 少 的 话 ， 则 可 以 采 


要 调整 的 参数 如 下 : 
“IP 
+ GATEWAY 
“ DNS 
* WSUS 
“NIP 


* HOSTS 


也 许 大 家 要 问 ， 像 DNS、WSUS、NTP 这 类 服务 器 地 址 是 有 固 


服务 器 条 件 如 下 : 


“ 搬迁 环境 涉及 两 类 资源 ， 一 类 为 容 灾 环境 节点 、 


逻辑 节点 切换 脚本 的 思路 


面 的 设备 搬迁 。 在 物理 设备 搬迁 到 新 机 房 后 ， 


Bl 


一 类 为 研发 测试 环境 节点 。 


“ 每 台 服务 器 都 利用 的 是 内 网 网 段 IP， 通 过 NAT 转 换 到 公 网 。 


“ 每 台 服 务 器 都 只 有 一 个 本 地 连接 的 网 口 。 


“ 所 有 网 段 的 网 关 地 址 的 最 后 一 位 为 254 (基于 C 类 网 段 进 行 分 配 ) 。 


由 于 新 注册 到 目标 数据 中 心 的 所 有 节点 ， 在 开启 后 仍然 保持 了 源 端 LUN COPY 节 点 的 所 有 人 参数。 而且 并 非 所 有 节点 都 安装 了 适合 虚拟 机 版 本 的 VMware-Tools 组 件 ， 
接 对 虚拟 机 发 送 指令 进行 操作 。 结 合 工作 中 的 实际 需求 ， 我 考虑 在 虚拟 机 未 断 开 复制 之 前 对 源 端 主机 预先 上 传 切 换 


invoke-vmscript 命 令 


第 二 种 方式 ， 虽 然 在 搬迁 过 程 中 对 基础 


性 的 要 求 不 高 ， 能 够 进行 短期 的 停机 ， 那 么 这 种 小 型 数据 中 心 ， 一 般 较 适 


慨 、 应 


属于 更 底层 、 更 核心 的 角色 。 从 整体 运 维 的 宏观 结构 来 看 ， 基 础 运 维 位 于 一 个 漏斗 的 底部 出 口 位 置 ， 支 撑 着 众多 应 


屋 运 维 人 员 的 要 求 相对 较 高 ， 但 从 长 远 来 看 可 为 公 


业务 


常 运 维 工作 ， 且 正 参与 数据 中 心 的 搬迁 项 目 。 故 本 章 将 从 系统 层 基础 运 维 人 员 的 角度 出 发 ， 介 绍 在 大 型 数据 中 心 搬迁 的 过 程 中 ， 如 何 


行 编制 脚本 ， 从 而 降低 


由 通过 新 建 的 虚拟 网 络 与 外 部 节 


往往 还 需要 对 虚拟 机 中 的 多 种 参数 进行 相关 调整 。 


手工 设置 的 方式 逐一 更 改 参数 。 但 是 ， 如 果 手 中 管理 的 Windows 和 Linux 虚 拟 机 有 数 干 台 的 话 ， 那 么 这 些 繁琐 的 参数 调整 一 定 会 让 你 头疼 不 已 。 


于 同城 数据 中 心 的 物理 搬迁 。 


点 正常 通信 。 


中 需 


定 IP 的 ， 设 置 起 来 应 该 相对 容易 ， 但 像 |P 地 址 和 GATEWAY 怎 么 办 呢 ? 下 面 就 来 讲述 下 如 何 编写 这 个 脚本 。 


因此 无 法 统一 通过 PowerCLI 的 


的 脚本 ， 搬 迁 至 目标 端 之 


后 ， 人 工 执行 切换 脚本 并 选取 对 应 的 环 


境 ， 系 统 再 根据 人 工 


反馈 的 环境 值 ， 自 动 更 改 对 应 的 参数 来 完成 虚拟 机 内 所 有 参数 的 切换 工作 。 


每 台 服务 器 都 有 一 个 搬迁 前 的 在 


下 内 容 : 


第 一 列 为 原 有 的 旧 IP， 第 二 列 为 搬迁 后 的 新 IP， 第 三 列 为 搬迁 后 需 


IP 地 址 ， 另 外 根据 规划 已 知 要 在 搬迁 后 为 每 台 服务 器 分 配 一 个 新 的 IP 地 址 。 因 


符 ) ， 该 文件 将 最 终 随同 切换 


以 下 表 3-2 仅 为 参考 示例 。 


现 有 1P 
100.198.100.71 
100.198.100.72 
100.198.100.73 
100.198.100.74 
100.198.100.75 
100.198.111.76 
100.198.111.77 
100.198.111.78 
100.198.111.79 
100.198.111.80 


调整 的 新 主机 名 (如 无 需 调整 


脚本 文件 在 搬迁 之 前 一 并 上 传 至 逻辑 节点 的 指定 目录 中 待 用 。 


表 3-2 新旧 IP 切 换 对 照 表 


新 IP 
192.168.100.71 
192.168.100.72 
192.168.100.73 
192.168.100.74 
192.168.100.75 
192.168.111.76 
192.168.111.77 
192.168.111.78 
192.168.111.79 
192.168.111.80 


机 名 ， 则 第 三 列 可 忽略 。Linux 的 字典 文件 


此 可 根据 项 目 规划 的 要 求 制作 一 3 


长 新 旧 1P 切 换 对 照 表 ， 俗 称 字 典 文件 ， 该 对 照 表 包 含 如 


TAB 作为 分 隔 符 ，Windows 的 字典 文件 


空格 作为 分 隔 


新 主机 名 
serl 
ser2 
ser3 
ser4 
serS 
ser6 
ser7 
ser8 
ser9 


serl0 


获取 目前 主机 上 的 IP 地 址 情况 ， 然 后 与 以 上 字典 文件 中 的 现 有 IP 列 的 IP 地 址 进行 比 对 ， 如 获取 到 对 应 的 现 有 IP， 则 再 提取 与 现 有 IP 同 一 行 中 对 应 的 新 IP 和 新 主机 名 。 并 将 新 IP 的 值 自动 赋予 Windows 的 


网 卡 ， 将 新 的 主机 名 赋予 操作 系统 (如果 有 需要 更 改 3 


3 未 -外 对 


作为 一 名 IT 运 维 和 人员 ， 在 日 常 的 运 维 中 ， 只 要 熟练 掌握 基本 工 : 


E 机 名 的 情况 ) ， 这 样 就 完成 了 IP 的 


彬 厚 和 齐 特 两 位 同事 对 我 的 大 力 支持 。 


作者 简介 


余 洪 春 ( 抚 琴 洛 


大 数据 时 代 高 伸缩 性 、 容 错 性 、 分 布 式 的 特点 给 系统 运 维 提 出 了 更 高 的 要 求 ， 现 在 已 不 


酒 ) ， 运 维 架构 师 、 资 深 系 统管 理 员 ， 
子 商 务 网 站 运 维 工作 十 多 年 ， 在 Linux 集 群 、 自 动 化 运 维 、 云 计算 及 高 并 发 高 流量 网 站 架构 设 让 


系统 架构 设计 。 


并 融会 贯通 加 以 灵活 应 用 ， 就 可 以 将 看 似 不 可 能 完成 的 任务 变 为 可 能 ， 同 时 达到 媳 


自动 替换 和 主机 名 更 改 的 工作 。 


半 功 倍 的 效果 。 以 上 经 验 仅 供 大 家 分 享 。 在 此 感谢 李 
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服务 的 时 代 。 为 了 提高 效率 、 和 避免 


常见 的 运 维 工作 流程 包括 : 安装 系统 一 优化 系统 与 配 
由 


E 复 劳动 、 减 少 错误 、 积 累 知识 ， 系 统管 理 员 已 经 开始 做 一 些 


得 很 繁 


系统 运 维 工 作 面 临 的 各 种 不 确定 性 更 让 人 头疼 ， 在 10 台 机 器 上 变更 应 
重复 性 的 劳动 还 会 让 人 觉得 疲惫 和 乏味 ， 久 而 久之 可 能 还 会 产生 厌倦 工作 的 情绪 ， 这 个 时 候 使 


”安装 软件 一 配置 软件 一 添加 监控 


”检查 ， 


? 尤其 当 我 们 负责 部 署 和 维护 大 量 服务 器 ， 和 凭借 一 已 之 力 无 法 完成 时 ， 便 需要 一 些 自动 化 工具 来 帮忙 了 。 


还 是 很 简 


杂 。 重 


这 里 的 操作 环境 按照 前 面 的 操作 已 经 搭建 完毕 ， 


下 面 将 介绍 Puppet 的 进 阶 操作 。 


具体 如 下 所 示 : 


《构建 高 可 用 Linux 服 务 器 》 《Linux 集 群 和 自动 化 运 维 》 作 者 ，ChinaUnix 论 坛 “集群 和 高 可 用 ”、 
等 方面 进行 了 深入 的 研究 ， 在 大 量 一 线 实践 中 积累 了 丰富 的 经 验 。 精 通 负 载 均衡 高 可 用 和 自动 化 运 维 技术 ， 擅 


是 系统 管理 员 疲 于 安装 操作 系统 、 对 系统 参数 进行 逐一 配置 与 优化 、 


“监控 及 自动 化 运 维 ” 版 版 主 。 从 事 云 计算 和 电 


打 补 丁 、 安 装 软件 、 配 置 软件 、 添 加 某 个 


局 部 的 自动 化 工作 。 但 只 有 这 些 还 远 远 不 够 ， 为 了 满足 运 维 需求 ， 


还 需要 更 彻底 地 应 用 自动 化 运 维 工具 。 


秆 网 站 或 系统 正式 上 线 后 ， 后 续 可 能 还 会 有 添加 服务 一 配 


变更 一 打 补丁 修复 漏洞 等 工作 ， 是 不 是 觉 


的 事 ， 就 算 到 了 100 台 也 有 轻 量 级 的 Fabric 自 动 化 运 维 工具 ， 但 是 如 果 上 升 到 1000 台 甚至 上 万 台 时 就 会 变 得 非常 复 


集中 配置 管理 工具 Puppet 则 能 很 轻松 地 解决 这 些 问题 ， 这 也 是 现在 Puppet 越 来 越 流行 的 原因 之 一 。 


server.cn7788.com 192.168.1.205 puppet-master 
fabric.cn7788.com 192.168.1.204 puppet-client 
client.cn7788.com 192.168.1.206 puppet-client 


我 们 清理 好 前 面 的 环境 ， 清 空 /etc/puppet/manifests/ 里 的 site.pp 文 件 的 内 容 ， 并 且 利 用 ntpdate 做 好 时 间 的 精准 对 时 ， 不 然 puppet-client 在 连接 时 会 报错 ， 连 接 不 上 。 


4.1 


如 何 同 步 puppet-agent 端 上 的 常用 服务 


如 何 同步 puppet-agent 端 (也 称 为 Puppet 客 户 端 ) 上 的 几 个 常用 服务 ， 要 求 如 下 : 


“ 开启 httpd 服 务 和 postfix 服 务 。 


“ 关闭 vsftpd 服 务 。 


实现 步骤 其 实 并 不 复杂 ， 我 们 还 是 在 服务 器 端的 /etc/puppet/manifests 的 site.pp 文 件 上 进行 操作 ， 内 容 如 下 所 示 (这 里 为 了 实验 方便 ， 请 提前 用 yum 安 装 好 下 面 的 服务 ) : 


service { 

["httpd", "postfix"]: 
ensure => running; 
"yeftpa"s 

ensure => stopped; 

} 


Puppet 客 户 端 顺利 连接 上 服务 器 端 后 ， 正 常 显示 结果 应 该 如 下 所 示 (完成 需求 ， 以 节点 机 器 client.cn7788.com 举 例 说 明 ) : 


Info: Retrieving Pluginfacts 

Info: Retrieving Plugin 

Info: Caching catalog for client.cn7788 .com 

Info: Applying configuration Version '1446608434' 

Notice: /Stage[main] /Main/Service[postfix] /ensure: ensure changed 'stopped' to 'running' 
Info: /Stage [main]/Main/Service [Postfix] : Unscheduling refresh on Service[postfix] 
Notice: Finished catalog run in 1.60 seconds 


我 们 可 在 Puppet 客 户 端 下 面 输入 命令 来 验证 下 实验 结果 ， 具 体 命令 如 下 所 示 : 


service postfix status 

master (pid 10028) is runninghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/O0EBPS/Text/... 
service httpd status 

httpd (pid 9603) is runninghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/... 
service vsftpd status 

vsftpd is stopped 


4.2 如 何在 puppet-agent 端 上 自动 安装 常用 的 软件 包 


在 Puppet 客 户 端 自动 安装 screen、ntp 和 sysstat 包 ， 有 具体 步骤 如 下 所 示 。 


(1) 编辑 /etc/puppet/manifests/site.pp 文 件 ， 内 容 如 下 : 


package { 
["screen", "ntp", "sysstat"]: 
ensure => "installed"; 


i 


(2) 客户 端 顺利 连接 上 服务 器 端 后 ， 正 常 显示 结果 应 该 如 下 所 示 (完成 需求 ， 以 节点 机 器 client.cn7788.com 举 例 说 明 ) : 


Info: Retrieving Pluginfacts 

Info: Retrieving Plugin 

Info: Caching catalog for client.cn7788.com 

Info: Applying configuration Version '1446608680"' 

Notice: /Stage [main]/Main/Package [sysstat]/ensure: created 
Notice: Finished catalog run in 15.03 seconds 


4.3 如何 自动 同步 puppet-agent 端 的 yum 源 


通过 以 下 命令 我 们 可 以 观察 到 puppet-master 端 机 器 上 更 新 了 yum 源 : 


1s 11 /etc/yum.repos.d/ 


命令 显示 结果 如 下 所 示 : 

total 24 

-rw-r--r--. 1 root root 1926 Feb 25 2013 CentOS-Base.repo 
~—rW-r--r--. 1 root root 638 Feb 25 2013 CentOS-Debuginfo.repo 
-rw-r--r--. 1 root root 630 Feb 25 2013 CentOS-Media.repo 
-rw-r--r--. 1 root root 3664 Feb 25 2013 CentOS-Vault.repo 
—rWw-r--r--. 1 root root 957 Nov 4 03:46 epel.repo 

"EW 1 Toot root 0 Nov 4 03:46 nginx.repo 
—rWw-r--r--. 1 root root 1250 Apr 12 2013 puppetlabs.repo 


如 果 想 通过 Puppet 将 这 些 文件 都 推送 到 与 client.cn7788.com 和 fabric.cn7788.com 相 对 应 的 目录 /etc/yum.repos.d/ 下 面 去 ， 那 么 这 个 该 如 何 实现 呢 ? 


(1) 修改 /etc/puppet/fileserver.conf 文 件 ， 内 容 如 下 所 示 : 


[files] 
path /etc/yum.repos.d/ 
allow * 


(2) 修改 /etc/puppet/manifests/site.pp 文 件 ， 内 容 如 下 所 示 : 


file 

{ "/etc/yum.repos.d/": 

source => "puppet://server.cn7788.com/files/", 
group => root, 

owner => root, 

mode => 644, 

recurse => true, 

force => true, 


Purge => true 
} 


Puppet 客 户 端 正确 连接 到 Puppet 服 务 器 端 后 ， 大 家 会 发 现 ，puppet-server 会 向 puppet-client 端 推送 文件 ， 我 们 分 别 在 两 台 节 点 机 器 上 输入 如 下 命令 : 


Puppet agent --test --server server.cn7788.com 


两 台 机 器 的 结果 是 一 样 的 ， 输 入 命令 的 反馈 结果 如 下 所 示 : 


Info: Retrieving pluginfacts 

Info: Retrieving plugin 

Info: Caching catalog for client.cn7788.com 

Info: Applying configuration Version '1446619419' 

Notice: /Stage[main]/Main/File[/etc/yum.repos.d/puppetlabs.repo] /ensure: defined content as '{md5}14d68f86efb69e928d626c7ea8a974b3' 

Notice: /Stage [main]/Main/File[/etc/yum.repos .d/CentOS-Debuginfo.repo]l /ensure: defined content as '{md5}8b95e819eeea42849932309b5be5533d' 

Info: Computing checksum on file /etc/yum.repos.d/puppetlabs-release-6-7.noarch.rpm 

Info: /Stage [main] /Main/File[/etc/yum.repos.dq/puppetlabs-release-6-7.noarch.rpm] : Filebucketed /etc/yum.repos.d/puppetlabs-release-6-7.noarch.rpm to puppet with sum 2aa0affe57a 
Notice: /Stage [main]/Main/File[/etc/yum.repos.d/puppetlabs-release-6-7.noarch.rpm] /ensure: removed 

Notice: /Stage[main]/Main/File[/etc/yum.repos.d/CentOS-Base.repo] /ensure: defined content as '{md5}d03052aaa85e5d26451f0ada9054f£50f" 

Info: Computing checksum on file /etc/yum.repos.d/softlist 

Info: /Stage [main] /Main/File[/etc/yum.repos.d/softlist]: Filebucketed /etc/yum.repos.d/softlist to puppet with sum 36fe51le7e690fe7d65046e9868ed2fa4 
Notice: /Stage[main] /Main/File[/etc/yum.repos.d/softlist]/ensure: removed 

Info: /Stage[main]/Main/File[/etc/yum.repos.d/test]: Recursively backing up to filebucket 

Info: Computing checksum on file /etc/yum.repos.d/test/dd 

Info: /Stage[main]/Main/File[/etc/yum.repos.d/test]: Filebucketed /etc/yum.repos.d/test/dd to puppet with sum d41d8cd98f00b204e9800998ecf8427e 
Info: Computing checksum on file /etc/yum.repos.d/test/cc 

Info: FileBucket got a duplicate file {md5}d41d8cd98f00b204e9800998ecf8427e 

Info: /Stage [main] /Main/File[/etc/yum.repos.d/test]: Filebucketed /etc/yum.repos.d/test/cc to puppet with sum d41d8cd98f00b204e9800998ecf8427e 
Notice: /Stage[main]/Main/File[/etc/yum.repos.d/test]/ensure: removed 

Notice: /Stage[main]/Main/File[/etc/yum.repos.d/nginx.repo] /ensure: defined content as '{md5}d41d8cd98f00b204e9800998ecf8427e' 

Notice: /Stage[main]/Main/File[/etc/yum.repos.d/CentOS-Media.repo] /ensure: defined content as '{md5}db3010a594efc3043651d78741ac02ff" 

Notice: /Stage[main]/Main/File[/etc/yum.repos.d/epel.repo]/ensure: defined content as '{md5}e8950030d9c72cf3e7a6469e8c1404ca' 

Notice: /Stage[main]/Main/File[/etc/yum.repos.d/CentOS-Vault.repol/ensure: defined content as '{md5}62b394965682al5877a36357fe55689d' 

Notice: Finished catalog run in 0.75 seconds 


同样 ,我们 在 Puppet 客 户 端 用 Il 命令 进行 观察 ， 将 会 发 现 已 经 将 puppet-server 端 的 /etc/yum.repos.d 目 录 下 的 文件 同步 过 来 了 ， 完 成 此 工作 需求 ， 检 查 结果 如 下 : 


total 24 

—rWw-r--r--. 1 root root 1926 Nov 4 06:44 CentOS-Base.repo 
—rWw-r--r--. 1 root root 638 Nov 4 06:44 CentOS-Debuginfo.repo 
-rw-r--r--. 1 root root 630 Nov 4 06:44 CentOS-Media.repo 
-rw-r--r--. 1 root root 3664 Nov 4 06:44 CentOS-Vault.repo 
—rWw-r--r--. 1 root root 957 Nov 4 06:44 epel.repo 

“wt 1 To0t oot 0 Nov 4 06:44 nginx.repo 
—rWw-r--r--. 1 root root 1250 Nov 4 06:44 puppetlabs.repo 


4.4 如 何 根据 不 同名 字 的 节点 机 器 推送 不 同 的 文件 


Puppet 服 务 器 端 向 名 为 client.cn7788.com 的 客户 端 推送 /etc/crontab 文 件 ， 向 名 为 fabric.cn7788.com 的 客户 端 推送 /etc/hosts 文 件 ， 向 名 为 nginx.cn7788.com 的 客户 端 推送 /etc/resolv.conf 文 件 ， 
这 个 应 该 如 何 实现 呢 ? 


这 里 的 需求 比较 复杂 ， 我 们 可 以 通过 Puppet 模 块 来 实现 需求 ， 模 块 文件 一 般 是 存放 在 服务 器 端的 /etc/puppet/modules/ 下 ， 在 它 下 面 我 们 会 定义 一 个 名 为 pushfile 的 模块 。 模 块 是 Puppet 生 态 系统 中 
的 核心 部 分 ， 我 们 一 般 通 过 资源 的 定义 告诉 Puppet 应 该 做 什么 ， 一 般 一 个 应 用 就 编写 成 一 个 模块 ， 例 如 我 们 定义 的 pushfile 模 块 。 


我 们 用 # 注 释 掉 fileserver.conf 文 件 里 面 的 相关 内 容 ， 清 空 site.pp 文 件 ， 然 后 在 /etc/puppet/modules 下 面 建立 名 为 pushfile 的 模块 ， 操 作 如 下 所 示 : 


mkdir -p /etc/puppet/modules/pushfile/{manifests, files, templates} 


而 site.pp 文 件 的 内 容 如 下 : 


import "node.PP" 


这 里 扩展 了 site.pp 文 件 的 内 容 ， 它 会 载 入 node.pp 文 件 ， 这 样 puppet-master 在 启动 的 时 候 ， 就 会 自动 接 入 并 处 理 node.pp 文 件 了 。 


服务 器 端的 /etc/puppet/manifests/node.pp 文 件 内 容 如 下 所 示 : 


node 'client.cn7788.com'{ 

file 

{"/etc/crontab": 

source => "puppet://server.cn7788.com/modules/pushfile/crontab", 
group => root, 

owner => root, 

mode => 644, 

} 

} 

node 'fabric.cn7788.com'{ 

file 

{"/etc/hosts": 

source => "puppet://server.cn7788.com/modules/pushfile/hosts", 
group => root, 

Owner => root, 

mode => 644, 

} 

} 

node 'nginx.cn7788.com'{ 

file 

{"/etc/resolv.conf": 

source => "puppet://server.cn7788.com/modules/pushfile/resolv.conf", 
group => root, 

owner => root, 

mode => 644, 

} 

} 


node.pp 配 置 文件 比较 长 并 且 也 很 复杂 ， 我 们 究竟 应 该 使 用 什么 方法 呢 ? 我 们 可 以 输入 如 下 命令 : 


puppet parser validate node.pp 


如 果 配 置 文 件 是 正确 的 ， 则 什么 也 不 显示 ; 如 果 检测 到 是 错误 的 ， 则 会 以 红色 醒目 字体 来 提示 。 


Puppet 利 用 node (节点 ) 来 区 分 不 同 的 客户 端 ， 并 且 会 给 不 同 的 客户 端 分 配 不 同 的 资源 ， 我 们 观察 下 node.pp 文 件 ， 在 这 个 文件 里 ，source 值 会 告诉 Puppet 去 哪里 寻找 文件 ， 我 们 将 文件 都 置 于 
puppet-server 的 /etc/puppet/modules/site/files 目 录 下 面 ， 它 相当 于 根 目录 ， 然 后 我 们 将 服务 器 端的 文件 依次 复制 到 此 目录 的 /etc 下 ， 操 作 如 下 所 示 : 


cp /etc/{crontab, hosts, resolv.conf} /etc/puppet/modules/pushfile/files 


我 们 用 tree 命 令 来 查看 下 pushfile 模 块 的 目录 树 结构 ， 命 令 如 下 : 


tree /etc/puppet/modules/pushfile 


命令 显示 结果 如 下 所 示 : 


/etc/puppet/modules/pushfile | 一 files | 上 一 crontab | 上 一 一 hosts | resolv.conf |—— manifests | 


3 directories, 3 files 


templates 


我 们 依次 在 3 台 puppet-client 机 器 上 面 执行 puppet 命 令 ， 可 以 发 现 配置 是 成 功 的 ， 这 里 以 client.cn7788.com 机 器 举例 说 明 下 ， 输 入 如 下 命令 : 


Puppet agent --test --server server.cn7788.com 


命令 显示 结果 如 下 所 示 : 


Info: Retrieving pluginfacts 

Info: Retrieving plugin 

Info: Caching catalog for client.cn7788.com 

Info: Applying configuration version '1446623887"' 

Notice: /Stage[main]/Main/Node[client.cn7788.com] /File[/etc/crontab]/content: 


--- /etc/crontab 2015-11-03 07:34:26.372044003 +0000 
+++ /tmp/puppet-file20151104-17989-alqkh6-0 2015-11-04 08:02:50.127072946 +0000 
@@ -14,10 +14,9 @@ 


者 | 人 

#* * * * * user-name Command to be executed 

-00 01 * * * root /bin/bash /usr/local/nginx/sbin/cut nginx log.sh >> /dev/null 2>&1 

+#00 01 * * * root /bin/bash /usr/local/nginx/sbin/cut nginx 1og.sh >> /dev/null 2>&1 

01 02 * * * root /bin/bash /root/backup.sh >> /dev/null 2>&I 

-03 03 * * * root /bin/bash /root/sshdeny.sh >> /dev/null 2>&1 

#01 04 * * * root /bin/bash /root/rsync dir.sh >>/dev/null 2>&1 

+#03 03 * * * root /bin/bash /root/sshdeny.sh >> /dev/null 2>&1 

—#*/5 * *** root /etc/init.d/iptables stop 

+*/5 * xx * * root /etc/init,.d/iptables stop 

Info: Computing checksum on file /etc/crontab 

Info: /Stage [main]/Main/Node [client.cn7788.com]/File[/etc/crontab] : Filebucketed /etc/crontab to puppet with sum 7e76ef490e02dde0dd8e82a5cf7c0c69 
Notice: /Stage [main] /Main/Node [client.cn7788.com] /File[/etc/crontab]/content: content changed ' {md5}7e76ef490e02dde0dq8e82a5cf7c0c69' to '{md5}2022061d798f3933e0caafb614272212' 
Notice: Finished catalog run in 0.47 seconds 


配置 是 成 功 的 ，/etc/crontab 被 成 功 地 推送 过 来 了 ， 而 且 内 容 也 进行 了 置换 ， 其 他 节点 机 器 的 结果 这 里 就 不 打印 了 。 


在 /etc/puppet/modules 下 定义 的 模块 都 是 自动 载 入 的 ， 所 以 不 需要 用 import 来 加 载 。 


4.5 ”如 何 根据 节点 机 器 名 来 选择 性 地 执行 Shell 程 序 


客户 端 机 器 nginx.cn7788.com 没 有 安装 Nagios 客 户 端 程序 ， 这 时 想 通过 puppet-server 推 送 Shell 脚 本 自动 安装 ， 其 他 节点 机 器 暂时 不 需要 安装 这 个 程序 ， 那 么 这 个 应 该 如 何 实现 呢 ? 


我 们 主要 还 是 通过 模块 的 方法 来 实现 这 个 需求 ， 和 4.4 节 一 样 ， 先 在 这 里 建立 一 个 名 为 nagioscli 的 模块 ， 命 令 如 下 所 示 : 


mkdir -p /etc/puppet/modules/nagiosins/{manifests, files,templates} 


在 /etc/puppet/modules/nagioscli/files 目 录 下 安装 Nagios 客 户 端 名 为 nagiosclil.sh 的 Shell 程 序 ， 具 体内 容 如 下 : 


#!/bin/bash 

useradd nagios 

cd /usr/local/src 

wget wget http://syslab.comsenz.com/downloads/linux/nagios-plugins-1.4.13.tar.gz 

wget http://syslab.comsenz.com/downloads/linux/nrpe-2.12.tar.gz 

tar zxvf nagios-plugins-1.4.13.tar.gz 

cd nagios-plugins-1.4.13 

./configure 

make 

make install 

chown nagios:nagios /usr/local/nagios 

chown -R nagios:nagios /usr/local/nagios/libexec 

cd http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/../ 
tar zxvf nrpe-2.12.tar.gz 

cd nrpe-2.12 

./configure 

make all 

make install-plugin 

make install-daemon 

make install-daemon-config 

sed -i 's@allowed hosts=127.0.0.1@allowed hosts=114.112.11.11@'/usr/local/nagios/etc/nrpe.cfg 
/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d 

echo "/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d" >> /etc/rc.local 


node.pp 文 件 的 内 容 如 下 所 示 : 


node 'nginx.cn7788.com'{ 

file 

{"/usr/local/src/nagiosins.sh": 

source => "puppet://server.cn7788.com/modules/nagiosins/nagiosins.sh", 
group => root, 

owner root, 

mode => 755, 

} 

exec { 

"auto install naigios client": 

command =>"sh /usr/local/src/nagiosins.sh", 

user root™, 

Path => ["/usr/bin","/usr/sbin","/bin","/bin/sh"], 
} 


} 

node 'client.cn7788.com'{ 

file 

{"/usr/local/src/nagiosins.sh": 

source => "puppet://server.cn7788.com/modules/nagiosins/nagiosins.sh", 
group => root, 

owner => root, 

mode => 755, 

} 

exec { 

"auto install naigios client": 

command =>"sh /usr/local/src/nagiosins.sh", 

user =>"root", 

Path => ["/usr/bin","/usr/sbin","/bin","/bin/sh"], 
} 

} 

node 'fabric.cn7788.com'{ 

E 


节点 机 器 client 和 fabric 机 器 后 面 什么 都 没有 ， 表 示 在 此 节点 机 器 上 面 没有 任何 操作 ， 因 为 client 和 fabirc 节 点 机 器 也 在 此 Puppet 环 境 里 ， 并 配置 成 了 自动 连接 。 如 此 配置 ， 是 为 了 防止 自动 连接 时 
Puppet 频 繁 报错 。 


这 里 以 client.cn7788.com 为 例 ， 在 其 主机 上 输入 如 下 命令 : 


puppetd --test --server server.cn7788.com 


命令 显示 结果 如 下 所 示 : 


Info: Retrieving pluginfacts 

Info: Retrieving plugin 

Info: Caching catalog for client.cn7788.com 

Info: Applying configuration Version '1446693418' 

Notice: /Stage[main] /Main/Node[client.cn7788.com] /Exec[auto install naigios client]/returns: executed successfully 
Notice: Finished catalog run in 165.27 seconds 


执行 时 间 比 较 长 ， 总 共 耗 时 165.27 秒 ， 我 们 先 检查 下 client.cn7788.com 的 节点 机 器 上 是 否 开启 了 nrpe 进 程 ， 输 入 命令 如 下 所 示 : 


Ps aux | grep nrpe | grep -Vv grep 


命令 显示 结果 如 下 所 示 : 


nagios 22331 0.0 0.1 5108 924 ? Ss 22:35 0:00 /usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d 


我 们 再 检查 下 /etc/rc.local， 看 看 此 命令 有 没有 添加 进去 ,命令 如 下 所 示 : 


grep -V "^#" /etc/rc,.local 


命令 执行 结果 显示 如 下 所 示 : 


touch /var/lock/subsys/local 
/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d 


检查 结果 说 明 puppet-master 的 nagioscli 模 块 是 正常 的 ，nginx.cn7788.com 的 结果 与 此 类 似 ， 这 里 就 不 贴 出 检测 结果 了 。 


4.6 如 何 快速 同步 puppet-server 端 的 www 目 录 文 件 


当 我 们 拥有 大 规模 Web 集 群 的 时 候 ， 所 有 服务 器 /var/www/html 的 数据 要 求 必须 迅速 统一 ， 这 个 又 该 如 何 实现 呢 ? 


实例 说 明 : server.cn7788.com 机 器 下 的 /data/svn/resource 目 录 文件 或 子 目 录 发 生 改 变 时 ， 要 求 nginx.cn7788.com、client.cn7788.com 和 fabric.cn7788.com 对 应 的 目录 /var/www/htmlI 文 件 或 子 
目录 也 发 生 改 变 。 


前 面 已 经 提 到 了 ，Puppet 分 发 大 文件 和 海量 图 片 小 文件 的 效果 并 不 好 ， 但 这 里 我 们 其 实 可 以 用 rsync+Puppet 的 方式 来 实现 工作 中 的 需求 。 这 里 要 用 到 Puppet Kick 的 知识 点 ，Puppet Kick 是 puppet- 
master 端 使 用 此 命令 强制 其 Agent 节 点 机 器 运行 Puppet Agent， 从 而 达到 立即 更 新 或 同步 文件 的 目的 。 当 然 也 可 以 用 Puppet rsync 模 块 ， 但 我 个 人 觉得 使 用 这 个 太 麻烦 了 ， 所 以 这 里 还 是 采用 自己 摸索 出 
来 的 方法 ， 具 体 步 骤 如 下 (这 里 以 client.cn7788.com 节 点 机 器 举例 说 明 ， 其 他 Puppet 客 户 端 操作 与 此 类 似 ， 这 里 就 不 一 一 列举 了 ) 。 


(1) 在 所 有 puppet-client 客 户 端 上 配置 puppet.conf 文 件 ， 使 其 固定 使 用 8139 端 口 ， 我 们 在 其 /etc/puppet/puppet.conf 文 件 下 添加 如 下 命令 : 


[puppet-client] 
listen = true 
Server=server .cn7788.com 


listen=true: 此 选项 将 使 puppet agnet 监 听 8139 端 口 。 


server=server.cn7788.com: 此 选项 必须 要 配置 ， 经 过 测试 ， 可 以 发 现 如 果 无 此 选项 时 ，puppet-client 会 连接 不 到 puppet-master 机 器 ， 从 而 导致 文件 同步 不 过 去 。 


(2) 修改 客户 端的 /etc/puppet/auth.conf， 人 允许 server.cn7788.com 的 服务 器 端 进 行 推送 。 


在 最 未 行 的 path/ 之 后 添加 allow*， 保 证 代码 内 容 相同 : 


path /run 
auth any 
allow * 


如 果 不 进 行 此 项 操作 的 话 ， 会 有 如 下 报错 : 


Debug: /File[/var/lib/puppet/ssl/private]: Autorequiring File[/var/lLib/puppet/ssl] 
Debug: /File[/var/lib/puppet/ssl/certs/server.cn7788.com.pem]: Autorequiring File[/var/lib/puppet/ssl/certs] 


Debug: /File[/var/lib/puppet/ssl/private keys]: Autorequiring File[/var/lib/puppet/ssl] 

Debug: /File[/var/lib/puppet/1ib]: Autorequiring File[/var/lib/puppet] 

Debug: /File[/var/lib/puppet/ssl/private keys/server.cn7788.com.pem]: Autorequiring File[/var/lib/puppet/ssl/private keys] 
Debug: /File[/var/lib/puppet/ssl/certificate requests]: Autorequiring File[/var/lib/puppet/ss1] 

Debug: /File[/var/lib/puppet/state]: Autorequiring File[/var/1lib/puppet] 

Debug: /File[/var/lib/puppet/ssl]: Autorequiring File[/var/lib/puppet] 

Debug: /File[/var/lib/puppet/ssl/crl.pem]: Autorequiring File[/var/1lib/puppet/ssl] 

Debug: /File[/var/lib/puppet/facts.d]: Autorequiring File[/var/1lib/puppet] 

Debug: /File[/var/lib/puppet/ssl/certs]: Autorequiring File[/var/lib/puppet/ssl] 

Debug: /File[/var/lib/puppet/ssl/public keys]: Autorequiring File[/var/lib/puppet/ssl] 

Debug: /File[/var/lib/puppet/preview]: Autorequiring File[/var/1lib/puppet] 

Debug: /File[/var/lib/puppet/ssl/certs/ca.pem]: Autorequiring File[/var/lib/puppet/ssl/certs] 

Debug: Finishing transaction 69854562006000 

Debug: Creating new connection for https://client.cn7788.com:8139 

Error: Host client.cn7788.com failed: Error 403 on SERVER: Forbidden request: server.cn7788.com(192.168.1.205) access to /run/client.cn7788.com [save] authenticated at :119 最 后 
service puppet restart 


最 后 ， 在 puppet-client 端 重启 Puppet 服 务 ， 命 令 如 下 所 示 : 


service puppet restart 


(3) 在 server.cn7788.com 机 器 的 /etc 目 录 下 建立 rsyncd.pass 文 件 并 分 配 内 容 ， 注 意 : 这 个 是 推送 到 客户 端的 文件 ， 需 要 注意 与 /etc/rsyncd.password 文 件 进行 区 分 ，/etc/rsyncd.pass 文 件 只 需要 指 
定 同步 用 户 的 密码 即 可 ，/etc/rsyncd.password 文 件 内 容 如 下 所 示 : 


test:test101 


/etc/rsyncd.pass 文 件 内 容 如 下 所 示 : 


test101 


(4) 配置 Puppet 服 务 器 端的 rsync 服 务 ，/etc/rsyncd.conf 文 件 内 容 如 下 所 示 : 


uid = www 

gid = WwW 

user chroot= no 

max connections =200 

timeout = 600 

pid file = /var/run/rsyncd.pid 

lock file = /var/run/rsyncd.1lock 

1og file = /var/log/rsyncd.1log 

[www] 

path=/var/www/html/ 

ignore errors 

read only = no 

list = no 

hosts allow = 192.168.1.0/255.255.255.0 
auth users = test 

secrets file = /etc/rsyncd.password 


我 们 的 Apache 服 务 的 属 主 和 属 组 是 www: www， 让 rsync 也 以 www 用 户 运 行 ， 这 样 可 以 保证 通过 rsync 同 步 过 去 的 文件 属性 。 我 这 里 采用 xinetd 管 理 rsync， 将 其 中 的 disable 改 为 no， 并 重启 xinetd 进 
程 ， 如 下 所 示 : 


service xinetd restart 


到 了 这 一 步 其 实 还 要 仔细 检查 一 下 ， 有 时 因为 配置 文件 的 错误 或 文件 权限 分 配 的 错误 ，rsync 进 程 其 实 没有 正确 启动 ， 所 以 我 们 还 要 用 如 下 命令 来 检查 下 : 


leof -=i:873 


命令 显示 结果 如 下 ， 这 表明 rsync 进 程 已 经 在 监听 873 端 口 了 ， 服 务 已 经 被 正确 启动 起 来 了 : 


COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME 
xinetd 7008 root Su IPv4 24249 0t0 TCP *:rsync (LISTEN) 


(5) 创建 名 为 rsyncfile 的 模块 ， 命 令 如 下 所 示 : 


mkdir -p /etc/puppet/modules/wwwrsync/{manifests, files, templates} 


并 将 /etc/rsyncd.pass 复 制 到 /etc/puppet/modules/wwwrsync/files 目 录 下 ， 命令 如 下 所 示 : 


cp /etc/rsyncd.pass /etc/puppet/modules/wwwrsync/files/ 


(6) 我 们 在 /etc/puppet/modules/wwwrsync/manifests/init.pp 里 定义 一 个 名 为 vwwrsync 的 类 ，init.pp 文 件 内 容 如 下 所 示 : 


class wwwrsync{ 

Package { httpd: 

ensure => present, 

} 

file { 

"/etc/rsyncd.pass": 

source =>"puppet://server.cn7788.com/modules/wwwrsync/rsyncd.pass", 
owner =>"root", 

group =>"root", 

mode =>"600", 

} 

exec { 

"auto rsync web directory": 

command =>"rsync -vzrtopg --delete test@192.168.1.205::ww /var/www/html --password-file=/etc/rsyncd.pass", 
user =>"root", 

Path => ["/usr/bin","/usr/sbin","/bin","/bin/sh"], 

i 

} 


init.pp 文 件 包 含 了 名 为 wwwrsync 的 类 ， 此 类 包含 了 三 个 资源 ， 第 一 个 是 名 为 httpd 的 资源 包 ， 如 果 此 服务 没有 安装 的 话 ，Puppet 客 户 端 会 自行 安装 httpd 服 务 ， 保 证 在 本 机 自动 生成 /Var/www/htnl 目 
录 ; 第 二 个 是 file 和 exec 命 令 ， 它 会 将 /etc/puppet/modules/wwwrsync/files/rsyncd.pass 文 件 推送 到 puppet-client 端 后 ， 在 puppet-client 端 执行 rsync 同 步 命令 ， 达 到 同步 /var/www/html 目 录 的 
的 ， 所 以 rsync-vzrtopg 后 面 应 该 接 rsync 服 务 器 地 址 ， 即 192.168.1.205， 这 点 请 大 家 注意 不 要 产生 混淆 。 


注意 


wwwrsync 模 块 中 定义 的 wwwrsync 类 要 跟 wwwrsync 模 块 同名 ， 不 然 Puppet 客 户 端 在 连接 服务 器 端 时 会 产生 找 不 到 wwwrsync 类 名 的 报错 ， 实 验 过 程 中 如 果 遇 到 错误 ， 请 注意 多 查看 Puppet 和 系统 日 志 。 


(7) 我 们 接着 在 /etc/puppet/manifetes/site.pp 中 定义 一 个 default 的 特殊 节点 ， 这 是 一 个 默认 节点 ， 它 会 将 wwwrsync 类 中 的 内 容 应 用 到 所 有 主机 上 面 ， 其 内 容 如 下 所 示 : 


node default 
include wwwrsync 


} 


{ 


(8) 我 们 在 server.cn7788.com 上 面 执行 推送 命令 ,命令 如 下 所 示 : 


puppet kick -d -~-host ‘cat /etc/puppet/iplist.txt 


命令 结果 如 下 所 示 (反馈 结果 太 长 ， 这 里 只 截取 部 分 ) : 


Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 
Debug: 


/File 
/File 
/File 
/File 
/File 
/File 
/File 
/File 
/File 
/File 
/File 
/File 
/File 
/File 
/File 
/File 


/var/lib/puppet/ssl/certs]/selrange: Found selrange default 's0' for /var/lib/puppet/ssl/certs 
/var/lib/puppet/ssl/certs/ca.pem]: Autorequiring File[/var/lib/puppet/ssl/certs] 

/var/lib/puppet/ssl/public keys/server.cn7788.com.pem]: Autorequiring File[/var/1lib/puppet/ssl/public keys] 
/var/lib/puppet/ssl/certs/server.cn7788.com.pem] : Autorequiring File[/var/lib/puppet/ssl/certs] 
/var/lib/puppet/ssl/private keys]: Autorequiring File[/var/1lib/puppet/ssl1] 

/var/lib/puppet/1ib]: Autorequiring File[/var/1lib/puppet] 

/var/lib/puppet/ssl/private keys/server.cn7788.com.pem]: Autorequiring File[/var/lib/puppet/ssl/private keys] 
/var/lib/puppet/ssl/private]: Autorequiring File[/var/lib/puppet/ss1] 

/var/lib/puppet/ssl/crl.pem]: Autorequiring File[/var/1lib/puppet/ss1] 

/var/lib/puppet/ssl/certificate requests]: Autorequiring File[/var/lib/puppet/ssl1] 

/var/lib/puppet/state]: Autorequiring File[/var/lib/puppet] 

/var/lib/puppet/ssl1]: Autorequiring File[/var/lib/puppet] 

/var/lib/puppet/ssl/certs]: Autorequiring File[/var/lib/puppet/ssl] 

/var/lib/puppet/facts.d]: Autorequiring File[/var/lib/puppet] 

/var/lib/puppet/ssl/public keys]: Autorequiring File[/var/lib/puppet/ssl] 

/var/lib/puppet/preview]: Autorequiring File[/var/lib/puppet] 


Finishing transaction 69995814564700 

Creating new connection for https://client.cn7788.com:8139 
Getting status 

status is success 

client.cn7788.com finished with exit code 0 


/etc/puppet/iplist.txt 文 件 内 容 如 下 所 示 : 


client .cn7788.com 
nginx.cn7788.com 
fabric.cn7788.com 


我 们 观察 名 为 client.cn7788.com 的 节点 机 器 ， 它 的 /var/www/html 文 件 立 即 就 跟 server.cn7788.com 的 /var/www/html 目 录 同 步 了 ， 从 而 实现 了 此 需求 ， 我 们 用 tail 命 令 观察 test1.cn7788.com 机 器 


的 messages 日 志 ， 结 果 如 下 所 示 : 
Nov 5 03:26:46 client puppet-agent[27782]: (/Stage [main] /Wwwrsync/Exec[auto rsync web directory] /returns) executed successfully 
Nov 5 03:26:47 client puppet-agent[27782]: Finished catalog run in 0.74 seconds 
Nov 5 03:41:50 client puppet-agent[28422]: (/Stage[main] /Wwwrsync/Exec[auto rsync web directory]/returns) executed successfully 
Nov 5 03:41:51 client puppet-agent[28422]: Finished catalog run in 1.32 seconds 
Nov 5 04:11:50 client puppet-agent[28690]: (/Stage[main] /Wwwrsync/Exec[auto rsync web directory]/returns) executed successfully 
Nov 5 04:11:50 client puppet-agent[28690]: (/Stage[main] /Wwwrsync/File[/etc/rsyncd.pass]/content) content changed '{md5}d8e8fca2dc0f896fd7cb4Acb0031ba249' to '{md5}93412aea2e7C 
Nov 5 04:11:52 client puppet-agent[28690]: Finished catalog run in 1.97 seconds 
Nov 5 04:14:17 client puppet-agent[27782]: triggered run 
Nov 5 04:14:25 client puppet-agent[27782]: (/Stage[main] /Wwwrsync/Exec[auto rsync web directory]/returns) executed successfully 
Nov 5 04:14:26 client puppet-agent[27782]: Finished catalog run in 1.69 seconds 


4.7 如何 利用 ERB 模 板 自动 配置 Apache 虚 拟 主机 


线 上 环境 有 不 少 Apache 主 机 需要 增加 基于 域名 的 虚拟 主机 ， 特 别 是 有 的 机 器 ， 虚 拟 主机 达到 几 十 台 之 多 ， 这 种 情况 下 ， 如 何 能 够 方便 快速 地 部 署 httpd.conf 和 虚拟 主机 配置 文件 呢 ? 


这 里 就 需 
考虑 使 用 模板 文件 ， 例 如 Nginx 和 Apache 的 虚拟 主机 配置 就 可 以 考虑 采 


到 Puppet 的 ERB 模 板 功能 了 ， 模 板 文件 就 是 在 模块 下 面 templates 目 录 中 以 “.erb” 结 尾 的 文件 ，Puppet 模 板 主要 用 于 文件 ， 例 如 各 种 服务 的 配置 文件 ， 相 同 的 服务 ， 不 同 的 配置 就 可 以 


ERB 模 板 的 方案 ， 我 们 在 这 里 先 以 Apache 为 例 来 说明 下 ， 其 模块 的 目录 树 结构 如 下 : 


/etc/puppet/ (|—— auth.conf |—— environments | 


example env | 一 manifests | | 一 一 modules 


11 directories，9 files 


-一 一 README .environment | 一 一 fileserver.conf 上 一 


Apache 模 块 的 具体 配置 步骤 如 下 。 


(1) 首先 我 们 建立 一 个 Apache 模 块 ， 命 令 如 下 所 示 : 


mkdir -P /etc/puppet/modules/apache/{files,manifests, templates} 


(2) /etc/puppet/modules/apache/manifests/init.pp 文 件 内 容 如 下 所 示 : 


class apache{ 
package{"httpd": 
ensure =>present, 


F 
} 


service{"httpd": 
ensure =>running, 
require =>Package["httpd"], 


define apache::vhost ( $sitedomain, $rootdir,$port ) { 

file { "/etc/httpd/conf.d/httpd vhost ${sitedomain} .conf"™: 
#path => '/etc/httpd/conf/httpd vhost.conf', 
content => template ("apache/httpd.conf.erb"), 
require => Package["httpd"], 


这 里 | 


到 了 Puppet 中 defind (定义 ) 的 概念 ， 定 义 和 类 都 属于 资源 容器 ， 不 过 定义 的 特点 是 能 够 在 一 台 主 机 上 被 赋值 多 次 ， 此 外 它 还 能 接受 参数 。 类 在 Puppet 中 是 单 例 的 ， 它 们 能 够 在 一 台 主 机 节点 
机 器 上 被 包含 多 次 ， 但 是 只 会 被 求 值 一 次 ; 而 定义 因为 能 够 接受 参数 ， 所 以 可 以 被 声明 多 次 ， 并 且 每 一 个 声明 都 会 被 求 值 。 


(3) /etc/puppet/modules/apache/templates 中 的 httpd.conf.erb 模 板 文 件 内 容 如 下 所 示 : 


<VirtualHost *:<Sg%= port %>> 
ServerName <%= sitedomain %> 
DocumentRoot /var/www/html/<%= rootdir %> 
<Directory <%= rootdir %>> 
Options Indexes FollowSymLinks 
AllowOverride None 
Order allow,deny 
Allow from all 
</Directory> 
ErrorLog logs/<%= sitedomain %> error.1log 
CustomLog logs/<%= sitedomain %> access.1log common 
</VirtualHost> 


在 httpd.conf.erb 中 我 们 提前 定义 了 两 个 变量 $sitedomain、$port，Puppet 中 使 用 这 种 格式 <%= 变 量 名 %> 来 定义 变量 ,我 们 可 以 检测 一 下 模板 是 否 存 在 语法 问题 ， 命 令 如 下 : 


erb -x -T '-' -P /etc/puppet/modules/apache/templates/httpd.conf.erb | ruby -c 


结果 显示 如 下 ， 表 示 语 法 不 存在 任何 问题 : 


Syntax OK 


(4) server 机 器 的 /etc/puppet/manifests/site.pp 内 容 如 下 : 


import 'nodes/*.pp' 


其 下 目录 nodes 中 有 两 个 文件 : 一 个 为 client.pp， 另 一 个 为 nginx.pp。server 机 器 的 /etc/puppet/manifests/nodes/nginx.pp 文 件 内 容 如 下 : 


node 'nginx.cn7788.com' { 
include apache 
apache: :vhost {'webmaster.cn7788.com' : 
sitedomain => "webmaster.cn7788.com", 
rootdir => webmaster, 
port => 80, 


apache: :vhost {'webtest.cn7788.com': 
sitedomain => "webtest.cn7788.com", 
rootdir => webtest, 
port => 80, 

} 

apache: :vhost {'webrsync.cn7788.com"': 
sitedomain => "webrsync.cn7788.com", 
rootdir => webrsync, 
port => 80, 


另 一 台 节 点 机 器 client.cn7788.com 的 client.pp 配 置 文件 内 容 ， 如 下 所 示 : 


node 'client.cn7788.com' { 
include apache 
apache: :vhost {'clientmaster.cn7788.com': 
sitedomain => "webmaster.cn7788.com", 
rootdir => webmaster, 
port => 80, 


apache: :vhost {'clienttest.cn7788.com': 
sitedomain => "webtest.cn7788.com", 
rootdir => webtest, 

port => 80, 


我 们 在 nginx.cn7788.com 的 机 器 上 输入 如 下 命令 进行 验证 : 


puppet agent --test --server server.cn7788.com 


结果 如 下 所 示 : 


Info: Retrieving pluginfacts 

Info: Retrieving plugin 

Info: Caching catalog for nginx.cn7788.com 

Info: Applying configuration version '1446792027"' 

Notice: /Stage[main]/Apache/Package[httpd] /ensure: created 

Notice: /Stage[main]/Main/Node[nginx.cn7788.com] /Apache: :Vhost [webtest.cn7788.com] /File[/etc/httpd/conf.d/httpd vhost webtest.cn7788.com.conf]/ensure: defined content as '{md5} 
Notice: /Stage[main]/Main/Node[nginx.cn7788.com] /Mpache: :Vhost [webmaster.cn7788.com] /File[/etc/httpd/conf.d/httpd vhost webmaster.cn7788.com.conf]/ensure: defined content as '{ 
Notice: /Stage[main]/Apache/Service[httpd] /ensure: ensure changed 'stopped' to 'running' 

Info: /Stage [main] /Apache/Service [httpd] : Unscheduling refresh on Service[httpd] 

Notice: /Stage [main]/Main/Node [nginx.cn7788.com] /Apache: :Vhost [webrsync.cn7788.com] /File[/etc/httpd/conf.d/httpd vhost webrsync.cn7788.com.conf]/ensure: defined content as '{mc 
Notice: Finished catalog run in 87.65 seconds 


结果 表示 配置 是 成 功 的， 整个 过 程 耗 时 87.65 秒 。 


很 多 资料 和 文档 都 是 复制 /etc/httpd/conf/httpd.conf 文 件 来 作为 httpd.conf.erb 模 板 的 ， 我 觉得 这 种 做 法 还 是 欠缺 考虑 的 ， 一 般 来 说 ， 每 台 Aapche 主 机 上 面 至 少 有 一 个 基于 域名 的 虚拟 主机 ， 有 的 更 多 , 十 


几 个 也 很 常见 ， 所 以 我 们 才 需 要 用 独立 的 虚拟 主机 文件 来 管理 虚拟 主机 并 自动 载 入 (注意 配置 文件 httpd.conf 中 存在 着 这 么 一 行 include confd/#.conf， 这 个 指令 的 意思 是 指 将 confd 目 录 下 所 有 以 .conf 结 尾 的 文 
件 都 引进 来 ) ， 这 也 是 我 们 利用 ERB 模 板 文件 将 虚拟 主机 文件 的 定义 路 径 放 在 /etc/httpd/conf.d 目 录 下 的 原因 。 


4.8 ”如 何 利用 ERB 模 板 自 动 配置 Nginx 虚 拟 主 机 


对 于 已 经 上 线 的 Web 集 群 环境 ， 如 何 才能 方便 快速 地 部 署 Nginx 及 其 虚拟 主机 呢 ? 要 想 实 现 这 个 需求 我 们 可 以 参考 4.7 节 的 内 容 ， 在 这 里 建议 用 第 三 方 yum 源 来 安装 Nginx， 如 果 是 用 Nginx 的 官方 源 来 


安装 Nginx 的 话 ， 我 们 可 以 查看 下 /etc/yum.repos.d/nginx.repo 文 件 的 内 容 ， 如 下 所 示 : 


[nginx] 
name=nginx repo 
baseurl=http://nginx.org/packages/centos/$releasever/$basearch/ 


gpgcheck=0 
enabled=1 


第 二 种 方式 是 通过 createrepo 建 立 自己 的 yum 源 ， 这 种 方式 更 加 灵活 ， 我 们 可 以 在 Nginx 官 网 上 下 载 适 合 自己 的 rpm 源 码 包 ， 然 后 rebuild 成 rpm 包 添加 进 自己 的 yum 源 ， 在 自动 化 运 维 要 求 严格 的 定制 


xX 
环境 中 ， 绝 大 多 数 运 维 人 员 都 会 选择 这 种 方法 。 大 家 通过 这 种 方式 安装 Nginx 后 会 发 现 ， 确 实 比 用 源码 安装 Nginx 方 便 多 了 ， 就 像 自 动 分 配 了 运行 Nginx 的 用 户 nginx: nginx。Nginx 的 日 志 存 放 会 被 自动 保 


存在 /vavlog/Nginx 下 ， 其 工作 目录 为 /etc/nginx， 这 一 点 跟 源码 编译 安装 的 Nginx 区 别 很 大 ， 请 大 家 注意 甄别 。 


Puppet 中 的 server.cn7788.com 机 器 的 /etc/puppet 的 文件 结构 如 下 所 示 : 


六 一 auth.conf |—— environments | -一 一 example env 上 一 manifests | | 一 modules 


-一 一 README .environment 


fileserver.conf | 一 manifests 


(1) 首先 我 们 要 建立 Nginx 模 块 ， 命 令 如 下 所 示 : 


mkdir -P /etc/puppet/modules/nginx/{files,manifests, templates} 


(2) Nginx 模 块 的 配置 文件 挺 多 的 ， 这 里 将 贴 出 其 详细 的 配置 说 明 。 


site.pp 的 文件 内 容 如 下 : 


import "nodes/*.pp" 


client.cn7788.com.pp 的 文件 内 容 如 下 所 示 : 


node 'client.cn7788.com' { 
include nginx 
nginx: :vhost {'client.cn7788.com': 
sitedomain => "client.cn7788.com" ， 
rootdir => "client", 


nginx.cn7788.com.pp 的 文件 内 容 如 下 所 示 : 


node 'nginx.cn7788.com' { 
include nginx 
nginx: :vhost {'nginx.cn7788.com': 
sitedomain => "nginx.cn7788.com" ， 
rootdir => "nginx", 


/etc/puppet/modules/nginx/manifests/init.pp 文 件 内 容 如 下 所 示 : 


class nginx{ 
package{ "nginx": 


ensure =>present, 
} 

service{"nginx": 

ensure =>running, 


require =>Package["nginx"], 
} 
file{"nginx.conf™: 
ensure => present, 
mode => 644, 
owner => root, 
group => root, 
path => "/etc/nginx/nginx.conf", 
content=> template ("nginx/nginx.conf.erb"), 
require=> Package["nginx"], 
} 
} 
define nginx: :vhost ($sitedomain, $rootdir) { 
file{ "/etc/nginx/conf.d/${sitedomain} .conf": 
content => template ("nginx/nginx vhost.conf.erb"), 
require => Package["nginx"], 


/etc/puppet/modules/nginx/templates/nginx.conf.erb 的 文件 内 容 如 下 所 示 : 


user nginx; 
worker processes 8; 
error log /var/log/nginx/error.log warn; 
pid /var/run/nginx.pid; 
events { 
use epoll; 
worker connections 51200; 
} 
http { 
include /etc/nginx/mime.types; 
default type application/octet-stream; 
log format main '$remote addr 一 $remote user [$time local] "$request"™" ' 
'$status $body bytes sent "$http referer™" ' 
'"$http user agent" ™$http x forwarded for"'; 
access log /var/log/nginx/access.log main; 


sendfile on; 
#tcp_nopush on; 
keepalive timeout 65; 
#gzip on; 


include /etc/nginx/conf.d/*.conf; 


我 们 检查 下 此 ERB 模 板 文件 的 语法 ， 命 令 如 下 所 示 : 


erb -x -T '-' -P /etc/puppet/modules/apache/templates/nginx.conf.erb | ruby -c 


没有 任何 显示 ， 这 就 说 明文 件 在 语法 上 是 不 存在 任何 问题 的 。 


/etc/puppet/modules/nginx/templates/nginx_vhost_conf.erb 文 件 是 Nginx 虚 拟 主 机 的 ERB 模 板 ， 其 文件 内 容 如 下 所 示 : 


server { 
listen 80; 
server name <%= sitedomain %>; 


access_1og /var/log/nginx/<%= sitedomain %>.access.1o0g; 
location / { 

root /var/www/<%= rootdir %>; 

index index.php index.html index.htm; 

} 

} 


最 后 我 们 可 以 在 节点 名 为 client.cn7788.com 和 nginx.cn7788.com 的 机 器 上 验证 效果 ， 命 令 如 下 所 示 : 


puppet agent --test --server server.cn7788.com 


这 里 以 nginx.cn7788.com 进 行 举例 说 明 ， 上 述 命令 执行 结果 如 下 : 


Info: Retrieving pluginfacts 

Info: Retrieving plugin 

Info: Caching catalog for nginx.cn7788.com 

Info: Applying configuration version '1446798263' 

Notice: /Stage[main] /Nginx/Package [nginx] /ensure: created 

Notice: /Stage [main]/Nginx/Service [nginx] /ensure: ensure changed 'stopped' to 'running' 
Info: /Stage [main]/Nginx/Service [nginx] : Unscheduling refresh on Service[nginx] 

Notice: /Stage [main]/Main/Node [nginx.cn7788 .com] /Nginx::Vhost[nginx.cn7788.com]/File[/etc/nginx/conf.d/nginx.cn7788.com.conf]/ensure: defined content as '{md5}5f08d10788e3c82b4 
Notice: /Stage [main]/Nginx/Eile [nginx.conf]/Vcontent: 

--- /etc/nginx/nginx.conf 2015-04-21 15:34:33.000000000 +0000 

+++ /tmp/puppet-file20151106-5957-1f964a8-0 2015-11-06 08:27:14.267072983 +0000 

@@ -1,32 +1,22 @@ 


user nginx; 

—worker processes 1; 

+worker processes 8; 
error log /var/log/nginx/error.1og warn; 
pid /var/run/nginx.pid; 


events { 

worker connections 1024; 
二 use epoll; 

worker connections 51200; 


} 


http 1{ 
include /etc/nginx/mime.types; 
default type application/octet-stream; 


log format main '$remote addr - $remote user [$time local] "$request" ' 
'$status $body bytes sent "$http referer" ' 
'"$http user agent" "$http x forwarded for"'; 


access log /var/log/nginx/access.log main; 


sendfile on; 
#tcp_nopush on; 


keepalive timeout 65; 
#gzip on; 


include /etc/nginx/conf.d/*.conf; 

} 
霹 

Info: Computing checksum on file /etc/nginx/nginx.conf 

Info: FileBucket got a duplicate file {md5}f7984934bd6cab883elf33d5129834bb 

Info: /Stage [main] /Nginx/File[nginx.conf] : Filebucketed /etc/nginx/nginx.conf to puppet with sum f7984934bd6cab883elf33dq5129834bb 
Notice: /Stage[main]/Nginx/File[nginx.conf]/content: content changed '{md5}£7984934bd6cab883elf33d5129834bb' to '{md5}34e85800459aaf9b40ebfbdfa33614c0' 
Notice: Finished catalog run in 42.19 seconds 


我 们 在 nginx.cn7788.com 的 机 器 上 检查 生成 的 Nginx 相 关 配 置 文件 ， 发 现 都 已 经 顺利 生成 了 ， 这 就 说 明 Nginx 模 板 配置 是 成 功 的 。 


4.9 小 结 


集中 配置 管理 工具 Puppet 这 个 软件 越 来 越 成 熟 和 强大 了 ， 它 有 着 很 好 的 发 展 前 景 ， 由 于 时 间 和 环境 的 关系 ， 本 章 只 是 简单 介绍 了 自动 化 部 署 管理 工具 Puppet 的 安装 、 部 署 及 平时 工作 中 的 常见 用 法 ， 
像 Puppet 的 控制 台 产 品 Dashboad 和 Foreman 都 没有 涉及 ， 有 兴趣 的 朋友 可 以 结合 工作 实际 尝试 研究 一 下 Puppet 更 高 级 的 用 法 。 
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在 Linux 运 维 工 作 中 ， 每 一 个 运 维 或 许 都 使 用 过 iptables 进 行 网 络 安全 设 定 。 在 涉及 Linux 安 全 时 ， 我 们 或 许 会 在 第 一 时 间 想 起 iptables 这 个 强大 的 工具 。 毋 庸 置疑 的 是 ，iptables 在 Linux 中 具有 重要 的 地 
位 。 但 是 ， 我 们 对 这 个 工具 是 否 还 有 更 深入 的 理解 呢 ? 我 们 是 否 知道 在 使 用 iptables 的 过 程 中 应 该 注意 的 事项 呢 ? 我 们 是 否 知道 iptables 除 了 在 安全 方面 的 作用 之 外 ， 它 还 可 以 实现 更 多 的 功能 呢 ? 本 章 将 会 
针对 以 上 的 问题 ， 逐 一 进行 详细 阐述 。 


本 章 由 一 些 使 用 iptables 中 的 经 典 案例 开始 ， 对 iptables 的 状态 追踪 功能 进行 生动 细致 的 讲解 ， 对 在 iptables 中 限制 ICMP 协 议 时 的 注意 事项 
网 络 地 址 转换 。 最 后 ， 作 为 总 结 ， 我 们 将 以 一 张 图 来 展示 iptables 中 的 各 种 表 和 链 的 作用 时 间 。 


案例 进行 讲解 ， 然 后 介绍 iptables 在 非 安全 方面 的 功能 : 


[El 


网 


5.1 ”禁用 连接 追踪 


5.1.1 ”排查 连接 追踪 导致 的 故障 


户 给 我 们 提供 的 截图 如 图 5-1 所 示 。 
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户 使 


的 测试 脚本 testping.sh 内 容 如 下 : 


在 测试 网 络 连 通 性 时 ， 发 现 连 接 到 某 主机 的 网 络 ping 时 断 时 续 ， 丢 包 问 题 严重 。 同 时 ， 它 在 与 该 虚拟 机 同 网 段 的 Windows 物 理 机 上 测试 同一 I[P 时 ， 未 发 现 该 问题 。 
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图 5-1 ping 丢 包 截 图 
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#!/bin/bash 

host=$1 

wait=$2 

if [ -=z $host ]7 
echo "Usage: 
exit 1 


then 
‘basename $0° [HOST]" 


if [ -z $wait ]; then 


wait=1 


let index=1 
let lost=0 
while :; do 


result= ping -W 1 -c 1 $host | grep 'bytes from ' 


if [ $? -gt 0 ]; then 


echo -e "$lost/$index - ‘date +'%Y/%m/%d %H:%M:%S'~ 


[0;3lmdown\033[0m" 
let lost=$lost+1 
else 


echo -e "$lost/$index - ‘date +'%Y/%m/%d %H:%M:%S'. 
32mok\033[0m -“echo $result | cut -d ':' 


Sleep S$wait # avoid ping rain 
ff 
let index=$index+1 
done 


进行 测试 : 


户 执行 以 下 命令 


-f 2°" 


- host $host is \033 


- host $host is \033[0; 


sh testping.sh xxx.yyy.zzz.76 


2. 排 查 过 程 


在 收 到 故障 申报 后 ， 我 们 首先 分 析 了 系统 日 志 /var/log/messages， 发 现在 对 应 的 时 间 点 ， 有 关于 nf_conntrack 的 报错 。 报 错 内 容 如 下 : 


Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: 
Dec 30 17:19:02 gcloud-whcq-ISpeaker-198 kernel: 
Dec 30 17:19:07 gcloud-whcq-ISpeaker-198 kernel: 
Dec 30 17:19:07 gcloud-whcq-ISpeaker-198 kernel: 


ratelimit: 877 callbacks suppressed 


nf conntrack: 
nf conntrack: 
nf _conntrack: 
nf conntrack: 
nf conntrack: 
nf_conntrack: 
nf conntrack: 


table full, 
table full, 
table full, 
table full, 
table full, 
table full, 
table full, 


dropping packet. 
dropping packet. 
dropping packet. 
dropping packet. 
dropping packet. 
dropping packet. 
dropping packet. 


_ ratelimit: 1356 callbacks suppressed 
nf conntrack: table full, dropping packet. 


我 们 使 


# sysctl net.netfilter.nf conntrack max 
net.netfilter.nf conntrack max = 65536 
# sysctl net.netfilter.nf conntrack count 
net.netfilter.nf conntrack count = 65000 


如 下 2 个 命令 可 以 看 出 ， 服 务 器 上 的 已 有 连接 追踪 条 目 数量 已 接近 于 我 们 配置 的 最 大 追踪 数 ， 这 一 点 进一步 确认 了 丢 包 问 题 是 由 连接 追踪 导致 的 。 


5.2 ”慎重 禁用 ICMP 协 议 


5.2.1 禁用 ICMP 协 议 导 致 的 一 则 故障 案例 


1. 问 题 描述 


我 们 负责 维护 的 某 系 统 分 布 于 多 个 机 房 之 中 ， 之 前 文件 传输 一 直 走 的 公 网 ， 这 是 很 正常 的 (架构 如 图 5-5 所 示 ) 。 


后 来 建成 了 大 内 网 (使 用 GRE VPN 技 术 在 Internet 上 组 建 的 私有 网 络 ， 目 前 通过 北京 电信 通 转发 ， 使 电信 和 联通 之 间 的 互 访 变 得 更 快速 ) ， 为 了 安全 和 快速 ， 文 件 传输 改 走 大 内 网 (架构 如 图 5-6 所 


通过 公 网 传 答 文件 V 


示 ) 。 


5-5 通过 公 网 传输 正常 


图 5-6 通过 大 内 网 传输 失败 


结果 碰 到 了 奇怪 的 问题 : 使 用 scp 或 wget 通 过 大 内 网 传输 文件 时 ， 只 能 传输 1KB 大 小 左右 的 文件 ， 稍 大 一 点 的 文件 ， 比 如 2KB 以 上 的 文件 ， 在 传输 中 就 被 卡 住 了 。 当 停止 iptables 后 ， 则 可 以 传输 大 文 
件 。 更 奇怪 的 事 还 在 后 面 ， 再 次 启用 iptables， 大 约 在 10 分 钟 内 仍然 可 以 传输 大 文件 ， 但 超过 10 分 钟 后 ， 上 面 的 问题 又 会 重 现 。 


2 排查 过 程 
在 启动 iptables 之 后 ， 我 们 进行 抓 包 。 


在 抓 包 中 (文件 : ICMP_Fragmentation_Needed.pcap) ， 我 们 看 到 了 有 ICMP 的 报错 信息 (如 图 5-7 中 的 @ 所 示 的 数据 帧 ) 。 


2 -10. -10.60.69 
27 8. -10.60. 让 二 
28 8 . 0 -10.60.69 
41 14.887861 10. 本 


-10.60.69 66 42711 > 80 [SYN] Seq=1654818306 Win=5840 Len=0 MSS= 
es 66 80 > 42711 [SYN, ACK] Seq=563863027 Ack=1654818307 
-10.60.69 60 42711 > 80 [ACK] Seq=1654818307 Ack=563863028 Win=6 
-10.60.69 186 GET /latale/13/data HTTP/1.0 
ee 54 80 > 42711 [ACK] Seq=563863028 Ack=1654818439 Win=6 


.27 2974 [TCP segment of a reassembled PDU] 


70 Destination unreachable (Fragmentation needed)@ 
1514 [TCP Retransmission] 80 > 42711 [ACK] Seq=563863028 
70 Destination unreachable (Fragmentation needed) 
1514 [TCP Retransmission] 80 > 42711 [ACK] Seq=563863028 


42 14.88797410.10.251.2 10.10.60.69 


5-7 ICMP 报 错 信 息 


70 Destination unreachable (Fragmentation needed) 


编号 为 20 的 数据 帧 ， 是 服务 器 10.10.60.69 向 网 卡 提交 了 长 度 为 2974 的 数据 帧 (该 网 卡 支持 TSO， 进 行 自动 分 片 传输 到 网 络 上 ) 后 ， 在 编号 为 21 的 数据 帧 中 ， 被 路 由 器 10.10.251.2 返 回 了 ICMP 


Destin 


It 


引起 这 个 


ation unreachable (Fragmentation needed) 的 信息 。 


MP 信息 的 具体 内 容 如 图 5-8 所 示 。 


5-8 中 ，@ 是 ICMP 类 型 ，@ 是 该 类 型 ICMP 的 错误 代码 ， 合 是 通知 10.10.60.69 (发 送 方 ) 应 该 使 


essage Protoco 
Type: 3 (Destination unreachab1e) OV 
Code: 4 (Fragmentation needed) 
Checksum: 0x50cc [correct] 
MTU of next hop: 1400 


的 MTU (1400 字 节 ) ， 信 和 全 是 引起 这 个 ICMP 的 数据 帧 的 源 IP 和 


ICMP 的 数据 帧 的 源 端口 和 目的 端口 (TCP 层 信息 ) ， 人 @ 是 引起 这 个 ICMP 的 数据 帧 的 TCP 序 列 号 。 合 、 人 @、 合 、@、 人 @ 正 好 与 图 5-7 中 的 编号 为 20 的 数据 幢 相 匹配 。 


E Internet Protocol Version 4, src: 10.10.60.69 (10.10.60.69), Dst: 10.2.3.27 (10.2.3.27) 


Version: 4 
Header length: 20 bytes 


的 IP (IP. 


层 信息 ) ，@ 和 人 @ 是 


田 Differentiated Services Field: Ox00 (DSCP 0x00: Default; ECN: 0x00: Not-ECT (Not ECN-Capable Transport)) 


Total Length: 1500 
Identification: Oxb681 (46721) 

Flags: Ox02 (Don't Fragment) 
Fragment offset: 0 
Time to live: 62 
Protocol: TCP (6) 

田 Header checksum: OQx2d2f [in ICMP error packet] 
Source: 10.10.60.69 (10.10.60.69) 
Destination: 10.2.3.27 (10.2.3.27)@ 
[Source GeoIP: Unknown] 

[Destination GeoIP: Unknown] 


E Transmission Control Pratocol, Src Port: 80 (80), Dst Port: 42711 (42711) 


Source port: 80 (80) 
Destination port: 42711 (42011) EE 
Seguence number: 563863028 ®e) 


而 这 个 ICMP 的 信息 ， 正 好 被 iptables 给 过 滤 了 。 因 为 我 们 只 开放 了 ICMP 的 以 下 类 型 为 允许 : 


5-8 ICMP 信 息 内容 


iptables -A INPUT -p icmp --icmp-type echo-reply -]j ACCEPT 
iptables -A INPUT -p icmp --icmp-type echo-request -]j ACCEPT 


5.3 


网 络 地 址 转换 在 实践 中 的 案例 


在 实践 中 ，iptables 除 了 可 用 于 网 络 安全 之 外 ， 还 经 常用 于 网 络 地 址 转换 (NAT) 的 环境 中 。 网 络 地 址 转换 分 为 源 地 址 转换 ( 源 地 址 NAT) 和 目的 地 址 转换 ( 


5.4 


通过 以 上 几 节 的 实践 我 们 知道 ，iptables 为 系统 工程 师 提 供 了 强大 的 包 过 滤 功 能 和 NAT 网 络 地 址 转换 功能 。 在 Linux 中 ， 为 iptables 提 供 这 些 功能 的 底 


深入 理解 jptables 的 各 种 表 和 各 种 链 


的 地 址 NAT) 。 


一 系列 钩子 (hook) ， 它 为 内 核 模块 在 网 络 栈 中 的 不 同位 置 注册 回调 函数 (callback function) 提供 了 支持 。 数 据 包 在 协议 栈 中 将 依次 经 过 这 些 处 于 不 同位 置 的 回调 函数 的 处 理 。 


下 


面 我 们 以 图 5-13 讲 解 netfilter 钩 子 与 iptables 各 种 表 和 链 的 处 理 顺序 : 


层 模 块 是 netfilter 框 架 。netfilter 是 Linux 内 核 中 的 


NF IP LOCAL IN 


NF_IP P 


RE POUTING 


0 NF IP LOCAL OUT 


图 例 


1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 


ee - 
[只 5 NF IP POST ROUTING 


netfilter 提 供 了 5 个 钩子 可 以 供 程序 去 注册 。 在 数据 包 经 : 


NF_IP_PRE_ROUTING: 在 数据 流量 进入 网 络 栈 后 立民 


NF_IP_LOCAL IN: 在 路 由 判断 确定 了 包 是 发 送 到 本 机 


发 送 到 网 络 的 
数据 包 


5-13 netfilter 钧 子 与 iptables 各 种 表 和 链 的 处 理 顺 序 图 


过 网 络 栈 的 时 候 ， 这 些 钩子 上 注册 的 内 核 模块 将 依次 被 触发 。 这 5 个 钩子 的 处 理 时 间 分 别 如 下 。 


被 触发 ， 这 个 钩子 上 注册 的 模块 在 路 由 决策 前 即 被 执行 。 如 图 5-13 中 全 所 示 的 阶段 。 


时 执行 这 个 钧 子 。 如 图 5-13 中 全 所 示 的 阶段 。 


NF_IP_FORWARD: 在 路 由 判断 确定 了 包 需 要 转发 给 其 他 主机 时 执行 这 个 钩子 。 如 图 5-13 中 的 全 所 示 的 阶段 。 


NF_IP_LOCAL_OUT: 在 本 机 进程 产生 的 网 络 被 送 到 网 


络 栈 上 时 执行 这 个 钩子 ， 如 图 5-13 中 全 所 示 的 阶段 。 


NF_IP_POST_ROUTING: 在 数据 包 经 过 路 由 判断 后 即将 发 送 到 网 络 前 执行 这 个 钩子 。 如 图 5-13 中 例 所 示 的 阶段 。 


iptables 中 有 5 个 链 (chain) ， 分 别 如 下 。 
PREROUTING: NF_IP_PRE_ROUTING 钩 子 触发 。 
INPUT: NF_IP_LOCAL IN 钩子 触发 。 

FORWARD: NF_IP_FORWARD 钩 子 触发 。 

OUTPUT: NF_IP_LOCAL OUT 钩子 触发 。 
POSTROUTING: NF_IP_POST_ROUTIN G 钩 子 触发 。 
iptables 中 有 5 种 表 (table) ， 分 别 如 下 。 

“ fiter 表 : fiter 表 是 iptables 中 使 用 最 广泛 的 表 ， 这 个 表 


“ nat 表 : 顾名思义 ， 这 个 表 是 进行 网 络 地 址 转换 用 的 ， 


的 作用 是 进行 过 滤 ， 也 就 是 由 这 个 表 来 决定 一 个 数据 包 是 否 继续 它 的 目的 地 址 ， 或 者 被 拒绝 。 


如 本 章 5.3 节 的 “网 络 地 址 转换 在 实践 中 的 案例 ”所 示 ， 可 以 改变 数据 包 的 源 地 址 或 目的 地 址 。 


“ mangle 表 : mangle 表 用 于 修改 IP 的 头 部 信息 ， 如 修改 TTL (Time to Live) 。 


“ taw 表 : taw 表 为 iptables 提 供 了 一 种 不 经 过 状态 追踪 的 


“security 表 : 提供 在 数据 包 中 加 入 SELinux 特 性 的 功能 。 


机 制 ， 在 大 流量 对 外 业务 的 服务 器 上 使 用 这 个 表 可 以 避免 状态 追踪 带 来 的 性 能 问题 。 如 本 章 5.1 节 的 “禁用 连接 追踪 ”中 的 案例 所 示 。 


该 表 一 般 用 得 不 多 ， 本 章 将 不 再 叙述 这 一 部 分 的 内 容 


通过 以 上 的 分 析 ， 我 们 知道 netfilter 只 有 5 个 钩子 ， 而 iptables 有 5 个 链 和 5 种 表 ， 由 此 可 见 在 一 个 钩子 上 可 能 有 多 个 表 的 不 同 链 需 要 处 理 ， 如 图 5-13 中 的 raw 表 、mangle 表 、nat 表 都 有 POSTROUTING 


链 ， 这 些 链 根据 自己 向 内 核 注册 时 的 优先 级 (priority) 依次 进行 处 理 。 


5.5 小 结 


Linux 中 的 iptables 既 是 强大 的 网 络 安全 工具 ， 又 是 网 络 地址 转换 工具 。 本 章 重点 剖析 了 连接 追踪 的 机 制 及 使 用 中 的 注意 事项 、 提 出 了 慎重 禁用 ICMP 协 议 的 论点 并 进行 了 分 析 。 对 iptables 在 网 络 地 址 转 
换 中 的 两 种 经 典 使 用 场景 进行 了 配置 案例 的 说 明 。 作 为 总 结 部 分 ， 我 们 给 出 了 iptables 中 各 种 表 和 链 的 作用 和 关系 ， 希 望 能 帮 读 者 形成 一 个 清晰 的 图 像 ， 在 分 析 iptables 问 题 时 能 够 参照 这 个 图 像 进行 快速 定 


位 。 


第 6 章 ”使 用 systemd 管 理 Linux 系 统 服 务 


作者 简介 


尹 会 生 ， 金 山西 山居 高 级 系统 工程 师 。 拥 有 多 年 的 企业 集群 解决 方案 培训 经 验 和 内 核 调 优 经 验 ， 擅 长 高 性 能 和 高 可 用 性 集群 技术 。 近 四 年 专注 于 Hadoop 集 群 、Spa 休 集群 在 推荐 系统 和 BI 相关 领域 的 解决 
方案 。 曾 历任 北京 尚 观 科 技 高 级 讲师 、 新 浪 研 发 中 心 技 术 经 理 等 职 。 在 新 浪 广告 、 微 博 广 告 、 西 山居 大 数据 平台 架构 中 担任 关键 角色 ， 并 提供 咨询 服务 。 


随 着 Red Hat Enterprise 7 的 发 布 和 Ubuntu 系 统 的 普及 ，systemd 开 始 逐 渐进 入 到 运 维 工程 师 的 视线 ， 从 启动 过 程 到 服务 管理 ， 再 到 常用 的 计划 任务 、 日 志 等 日 常 运 维 工具 都 有 systemd 的 影子 ， 它 对 
运 维 工程 师 的 影响 越 来 越 大 ， 这 里 就 为 大 家 介绍 一 下 systemd 在 Linux 日 常 管理 中 的 使 用 。 


6.1 systemd 和 和 sysVinit 之 间 的 关系 


systemd 是 优秀 的 进程 管理 工具 ， 在 CentOS 5.x 版 本 下 管理 进程 的 这 类 工具 称 为 sysVinit， 管 理 员 经 常用 的 service、chkconfig 等 命令 就 是 sysVinit 提 供 的 。 但 是 systemd 与 sysVinit 不 同 ， 它 能 够 从 系统 
的 启动 过 程 就 开始 进程 的 管控 ， 对 非 终端 依赖 型 的 程序 (服务) 进行 配置 ， 而 且 还 提供 了 很 多 进程 通信 和 进程 调用 的 简便 用 法 ; 这 里 以 CentOS 的 发 行 版 本 为 例 来 为 大 家 讲解 ， 在 启动 过 程 中 systemd 和 
sysVinit 的 区 别 。 


6.2 systemd 的 原理 和 启动 顺序 


6.2.1 sysVinit 的 启动 顺序 


既然 systemd 由 sysVinit 进 化 而 来 ， 因 此 为 了 更 好 地 掌握 systemd 的 原理 和 启动 过 程 ， 首 先 我 们 详细 分 析 一 下 sysVinit 的 启动 方式 。 目 前 我 所 在 的 公司 还 有 很 多 业务 运行 在 CentOS 5 系统 上 面 ， 该 版 本 也 
是 用 于 生产 环境 非常 稳定 的 发 行 版 本 。 下 面 我 们 以 典型 的 CentOS 5 系统 为 例 ， 为 大 家 介绍 sysVinit 体 系 下 的 启动 顺序 。 


(1) 在 Linux 系 统 的 启动 过 程 中 ， 首 先 由 BIOS 加 电 自 检 ， 之 后 将 引导 功能 交 给 GRUB 进 行 引 导 ， 用 户 可 以 根据 界面 提示 来 自由 地 选择 不 同 版 本 的 内 核 。 


(2) 内 核 在 引导 完成 之 后 ， 会 加 载 第 一 个 进程 init， 这 时 就 正式 进入 了 sysVinit 的 引导 环境 ，init 进 程 在 磁盘 的 “/sbin/init” 这 个 位 置 。 之 后 所 有 的 进程 都 是 由 它 派生 (fork) 出 来 的 ， 它 的 PID 永 远 为 


(3) init 程 序 运行 时 会 加 载 配 置 文件 /etc/inittab， 在 配置 文件 中 根据 指定 的 参数 来 确定 自己 的 启动 级 别 (runlevel) ， 不 同 的 启动 级 别 可 用 来 定义 一 组 不 同 服务 的 启动 顺序 ， 在 默认 情况 下 会 有 0~ 6 共 7 
个 启动 级 别 ， 也 就 是 说 用 户 可 以 定义 7 种 (实际 上 是 5 种 ) 不 同 的 启动 方式 ， 以 保证 用 户 可 以 灵活 地 进行 服务 启动 顺序 的 设置 。 默 认 情 况 下 ， 在 生产 环境 中 我 们 将 启动 级 别 设置 为 3， 其 他 启动 级 别 的 用 途 将 
在 6.2.2 节 为 大 家 详细 介绍 。 


(4) init 程 序 会 按照 默认 的 级 别 来 逐个 加 载 一 组 服务 ， 首 先 会 加 载 各 个 外 设 的 硬件 驱动 ， 然 后 加 载 基础 服务 ， 如 网 络 参 数 、 蓝 牙 、 软 件 raid、LVM 逻 辑 等 服务 ， 之 后 再 加 载 其 他 的 应 用 服务 。 全 部 加 载 
完成 之 后 会 进入 等 待 用 户 登录 的 界面 ， 来 完成 一 次 启动 过 程 。 


这 就 是 sysVinit 的 启动 过 程 ， 引 导 过 程 大 量 使 用 了 Shell 脚 本 ， 以 方便 运 维 工程 师 分 析 启 动 过 程 中 都 执行 了 哪些 操作 ， 这 种 简单 又 直接 的 启动 方式 很 适合 运 维 工程 师 去 理解 启动 的 过 程 ， 但 启动 效率 却 很 


低 。 


sysVinit 的 启动 过 程 如 图 6-1 所 示 : 


BIOS 加 电 自 检 
Fo 2.6. 18 | 2.6.32 
2.6.18 2.6.32 

不 同 的 内 核 版 本 


| ws 运行 系统 初始 化 脚本 


/sbin/init a 


通过 读 取 配置 文件 
来 确定 运行 级 别 


/etc/rc3.d 根据 运行 级 别 运 行 特定 的 服务 


服务 加 载 完 成 之 后 ， 加 载 终 
端 等 待 用 户 登 录 


图 6-1 sysVinit 的 启动 过 程 


为 了 便于 对 比 不 同 的 启动 程序 之 间 的 差异 ， 下 面 将 更 具体 地 分 析 下 /etc/inittab 文 件 中 的 内 容 。 


(1) init 进 程 加 载 /etc/inittab 配 置 文 件 的 部 分 ， 获 得 运行 级 别 后 并 不 会 根据 级 别 立 即 启动 这 组 服务 程序 ，init 进 程 会 为 系统 执行 初始 化 动作 。 这 个 初始 化 动作 是 由 /etc/inittab 的 下 列 选 项 来 完成 的 : 


si::sysinit:/etc/rc.d/rc.sysinit 


它 的 含义 是 在 系统 启动 各 个 服务 程序 之 前 执行 /etc/rc.d/rc.sysinit 脚 本 ， 这 个 脚本 是 串 行 地 将 主机 名 、 文 件 系 统 、swap、SELinux、udev、 内 核 参 数 、 系 统 时 钟 、RAID、LVM 等 服务 启动 时 可 能 会 依赖 
的 功能 先 运行 起 来 ， 然 后 再 加 载 指定 级 别 的 服务 。 如 果 我 们 测量 一 次 完整 的 启动 时 间 ， 会 发 现 rc.sysinit 脚 本 的 运行 时 间 占 用 了 大 部 分 的 启动 时 间 ， 因 为 它 为 后 面 的 各 级 别 服务 准备 了 基础 环境 ， 而 不 关心 后 
面 的 服务 是 否 会 用 到 这 些 资源 ， 从 而 造成 了 大 量 的 启动 时 间 的 浪费 。 


(2) 加 载 服务 又 是 怎样 实现 的 呢 ? 可 以 通过 设置 /etc/inittab 配 置 文 件 的 “id: 3: initdefault: ”这 一 行 语句 来 更 改 系统 默认 的 运行 级 别 。 在 配置 文件 中 还 有 这 样 的 内 容 : 


10:0:wait:/etc/rc.d/rc 0 
ll:l;wait:/ete/rc.d/re 1 
12:2;wait;/etc/rc.d/rc 2 
13:3:wait:/etc/rc.d/rc 3 
14:4:wait:/etc/rc.d/rc 4 
l15:5:wait:/ete/rc.d/re 5 
16:6:wait:/Vetc/rc.d/rc 6 


这 里 是 一 个 分 支 ， 用 于 保证 系统 会 加 载 到 一 组 指定 的 服务 ， 而 不 是 加 载 全 部 的 服务 。 而 前 面 的 wait 标 志 ， 会 让 系统 逐个 加 载 服务 直到 加 载 完 所 有 的 服务 后 才 继 续 下 一 步 的 启动 。 


根据 initdefault 给 定 的 级 别 (这 里 是 级 别 3) ， 执 行 相应 的 服务 。 系 统 会 执行 /etc/rc.d/rc 3 的 Shell 脚 本 ， 下 面 将 跟踪 /etc/rc.d/rc 这 个 脚本 ， 主 要 逻辑 如 下 : 


runlevel="$1" # 获取 命令 的 参数 

for i in /etc/rc$runlevel.d/K* ; do 

# 进 入 /etc/rc3.d/ 目录 ， 依 次 执行 以 K00~K99 开 头 的 程序 并 增加 stop 参数 
$i stop 

done 

for i in /etc/rc$runlevel.d/S* ; do 

# 进入 /etc/rc3.9/ 目录 ， 依 次 执行 以 S00~S99 开 头 的 程序 并 增加 start 参数 
$i start 

done 


打开 /etc/rc1.d 到 /etc/rc5.d 目 录 会 发 现 大 部 分 服务 是 以 S 开 头 的 符号 链接 ， 而 rc0.d 和 rc6.d 下 则 是 大 量 的 以 K 开 头 的 符号 链接 。 运 维 工 程 师 通 过 chkconfig 命 令 就 可 以 改变 这 些 符号 链接 开头 的 5 或 K 标 
记 。 而 3 或 K 标 记 后 面 的 两 位 数字 就 是 用 来 确定 启动 顺序 的 。 


从 这 个 逻辑 我 们 不 难 发 现 ， 服 务 启动 的 过 程 是 顺序 完成 的 ， 而 且 在 前 一 个 服务 没有 执行 完成 之 前 ， 后 面 的 程序 都 要 等 待 ; 利用 这 种 方式 启动 服务 的 好 处 还 是 简单 ， 但 这 一 过 程 会 让 现代 计算 机 (多 核 并 
发 ) 的 机 制 产生 严重 的 资源 浪费 ， 因 为 仅 有 单线 程 在 工作 。 鉴 于 上 面 的 这 种 顺序 引导 的 情况 ，CentOS 6 采用 了 Upstart 工 具 来 代替 sysVinit 进 行 引导 ，Upstart 对 rc.sysinit 脚 本 做 了 大 量 的 优化 ， 它 将 启动 需 
要 做 的 每 一 个 服务 都 封装 成 一 个 任务 (job) ， 并 且 为 每 一 个 任务 增加 一 个 状态 ， 在 启动 时 制定 一 些 状 态 ， 并 根据 状态 来 确认 每 个 任务 运行 到 哪 一 步 了 ， 然 后 使 用 事件 (event) 机 制 和 其 他 任务 进行 通信 ， 
这 样 就 缩短 了 系统 初始 化 时 的 启动 时 间 。 


有 了 Upstart 之 后 ， 我 们 在 同样 的 硬件 环境 下 进行 了 启动 时 间 的 比较 ， 发 现 启动 一 套 标准 的 CentOS 6 系统 要 比 CentOS 5 系统 快 很 多 。 但 是 我 们 还 发 现 如 果 在 服务 引导 的 部 分 还 有 可 以 优化 的 余地 ， 即 
rc3.d 部 分 引导 服务 的 时 候 仍 然 是 串 行 的 ， 那 么 我 们 还 可 以 对 这 部 分 缩短 启动 时 间 ， 接 下 来 我 们 看 看 systemd 是 怎么 做 的 。 


6.3 “systemd 的 进程 控制 命令 


systemd 兼 容 了 sysVinit 的 进程 控制 类 命令 ， 同 时 还 把 需要 修改 配置 文件 才能 生效 的 功能 也 封装 成 了 新 的 命令 。 这 里 介绍 一 下 systemd 新 增加 的 systemctl|、hostnamectl、localectl|、loginctl、 


timedatectl 命 令 。 


6.4 systemd 服 务 管理 


除了 系统 自 带 的 软件 之 外 ， 在 实际 应 
熟悉 的 sysVinit 方 式 开始 ， 来 介绍 如 何 编写 


使 


中 我 们 经 常 还 会 部 署 其 他 的 开源 软件 ， 如 果 也 需 
自己 的 systemd 服 务 脚 本 。 


systemd 管 理 它们 的 启动 ， 那 就 需要 自行 编写 systemd 的 service 文 件 ， 在 这 里 我 们 以 Nginx 为 例 ， 从 大 家 


6.5 优化 


我 们 可 以 看 到 systemd 的 功能 已 经 非常 强大 了 ， 除 了 系统 自 带 的 服务 之 外 我 们 还 可 以 增加 自己 的 脚本 ，systemd 也 为 系统 管理 员 提供 了 很 多 性 能 分 析 工 具 ， 可 以 根 


居 分 析 结 果 来 进行 启动 的 优化 。 


6.6 人 小结 


systemd 是 现代 Linux 操 作 系 统 上 的 非常 实 
能 够 通过 对 systemd 的 引导 过 程 分 析 和 特性 的 讲 


习惯 和 


的 工具 ， 通 过 上 面 的 基本 功能 可 以 简化 运 维 工程 师 大 量 的 重复 工作 ， 但 是 systemd 在 使 
解 ， 为 大 家 掌握 systemd 的 高 级 功 提供 帮助 。 


法 上 的 改进 也 给 运 维 工 程 师 带 来 了 巨大 的 挑战 ， 希 望 这 里 


H 
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作者 简介 


曾 负 


张 观 石 ，2002 年 大 学 毕业 ， 毕 业 后 即 从 事 桌 面 软件 开发 设计 工作 ， 后 转型 于 互联 网 Web 项 目的 开发 和 运 维 。 有 10 年 PHP 开 发 和 网 站 运 维 经 验 ， 曾 负责 运 维 “ 英 雄 联盟 盒子 ”等 多 个 以 PHP 为 主要 开发 语言 
的 大 型 Web 项 目 ， 所 负责 的 项 目 从 日 PV 百 万 、 千 万 到 数 亿 的 都 有 ， 在 这 些 项 目的 成 长 过 程 中 积累 了 大 量 的 PHP 运 维 经 验 ， 因 此 对 运 维 也 有 了 更 深入 的 认识 。 现 为 欢聚 时 代 (YY) 互 娱 事 业 部 业务 运 维 负 责 


人 。 


PHP 是 互联 
架构 的 重视 和 投入 
为 PHP 做 不 了 大 


创业 公司 开发 网 站 的 首选 ， 国 内 外 也 有 很 多 大 型 互联 网 公司 正在 使 用 PHP 技 术 ， 包 括 BAT、YY、Facebook 等 。PHP 语 言 容易 上 手 ， 运 维 入 手 也 很 “简单 ” ， 所 以 很 多 团队 对 PHP 运 维和 
都 不 够 ， 从 而 导致 很 多 PHP 技 术 栈 的 团队 无 法 解决 大 规模 、 高 并 发 的 问题 。 不 少 人 已 经 习惯 于 Nginx+ PHP+MySQL+HTML 的 模式 ， 甚 至 还 有 人 把 运 维 建 设 不 足 的 问题 也 归罪 于 PHP， 认 
站 。 我 注意 到 业界 很 少 有 关于 大 型 PHP 项 目 运 维 技术 的 分 享 和 讨论 ， 于 是 尝试 着 借助 本 书 分 享 一 下 自己 的 一 些 思考 和 实践 。 


团 


本 章 首先 会 从 开发 和 运 维 的 多 个 新 视角 来 重新 认识 PHP， 再 讲解 PHP 运 维 与 架构 设计 过 程 中 的 常见 问题 和 解决 方法 ， 然 后 
解 PHP 部 署 包括 进程 部 署 、 配 置 变更 及 PHP 代 码 发 布 ; 然 后 讲解 如 何 分 析 PHP 的 性 能 问题 、 如 何 加强 PHP 的 监控 、 如 何 调 优 PHP; 最 
会 重点 介绍 我 对 PHP 运 维 的 思考 和 实践 。 本 章 的 每 一 节 都 会 介绍 一 些 PHP 运 维 实践 ， 其 中 部 分 内 容 不 仅仅 局 限于 PHP， 对 于 其 他 技术 的 运 维 工 作 也 是 通 


3 个 小 节 的 内 容 来 分 享 运 维 最 常见 的 工作 : 部 署 、 性 能 分 析 和 故障 处 理 。 先 讲 
后 讲解 如 何 快速 定位 和 处 理 故障 。 本 章 中 我 们 会 说 到 业界 的 运 维 现状 ， 
的 。 


7.1 ”PHP 再 认识 


PHP 是 网 站 技术 中 最 流行 的 语言 ， 权 威 语言 排行 网 站 TIOBE 上 显示 全 球 有 83% 的 网 站 使 用 了 PHP 技 术 。 那 么 PHP 到 | 底 是 什么 样 的 技术 呢 ， 接 下 来 我 们 会 试 着 从 几 个 全 新 的 视角 来 了 
读者 更 深入 地 理解 PHP， 为 提升 PHP 运 维 能 力 打 好 基础 。 


新 解析 PHP， 以 帮助 


7.2 PHP 开 发 、 架 构 、 运 维 问题 及 解决 思 


业界 使 用 PHP 技 术 已 经 有 多 
站 ,但 有 些 人 却 跳 不 出 这 个 框框 。 有 些 
站 开发 、 架 构 


F 的 历史 ， 对 于 创业 公司 ，PHP 更 是 首选 。 业 界 已 经 形成 了 一 些 良 好 的 最 佳 实践 ， 但 也 有 一 些 普遍 存在 的 问题 。 比 如 最 流行 的 LNMP 架 构 ， 帮 助 了 很 多 初创 公司 快速 上 线 
发 人 员 喜 欢 用 大 型 PHP 框 架 ， 有 些 人 喜欢 用 自己 的 微型 函数 库 、 有 些 人 会 做 较 全 的 架构 设计 ， 还 有 些 人 喜欢 从 头 到 尾 流水 模式 执行 下 来 。 本 节 我 们 将 讨论 在 PHP 
设计 、 运 维 过 程 中 运 维 的 角色 及 可 以 发 挥 的 作用 。 


7.3 PHP 进程 部 署 和 配置 、 代 码 发 布 


全 | 一 
El 


在 一 台 服 务 器 中 进行 PHP 进 程 的 部 署 、 配 置 和 代码 发 布 都 很 简单 ， 只 要 安装 PHP 进 程 ， 对 配置 文件 按 需 要 进行 修改 ， 启 动 进 程 ， 把 PHP 代 码 复制 上 去 即 可 ， 稍 有 经 验 的 人 都 能 完成 这 些 工作 。 如 何在 较 
短 时 间 内 完成 多 台 、 十 几 台 、 甚 至 几 十 、 上 百 台 服务 器 的 部 署 ， 而 且 不 出 差错 ， 其 实 是 很 有 挑战 性 的 工作 。 网 上 有 大 量 关 于 PHP 部 署 的 教程 ， 不 难 发 现 网 上 教程 的 方法 有 介绍 单 台 服务 器 PHP 部 署 的 ， 有 讲 


PHP 配 置 参 数 的 ， 却 很 少 有 讲 “ 大 规模 集群 。 下 PHP 的 部 署 和 配置 变更 的 ， 讲 PHP 代 码 发 布 的 也 极 少 。 本 节 将 为 大 家 分 享 一 下 我 个 人 的 一 些 思考 和 实践 ，PHP 部 署 可 以 包括 以 下 三 个 内 容 : 


(1) PHP 进 程 的 部 署 、 升 级 ， 包 括 PHP 扩 展 的 部 署 。 


(2) PHP 配 置 文件 的 部 署 和 变更 。 


(3) PHP 应 


代码 的 发 布 。 


7.4 ”PHP 性 能 分 析 


7.4.1 性 能 问题 概述 


随 着 网 站 用 户 的 持续 增长 ， 如 何以 有 限 的 资源 尽 可 能 地 服务 于 更 多 的 用 户 呢 ，PHP 性 能 优化 在 这 里 就 显得 特别 重要 。PHP 具 有 人 入 门 简单 、 容错 性 强 、 性 能 较 高 的 特点 ， 也 很 容易 由 于 测试 不 完备 、 代 码 
随意 、 对 性 能 不 够 重视 等 原因 导致 上 线 后 出 现 各 种 问题 ， 且 不 容易 在 第 一 时 间 就 能 找到 性 能 瓶颈 点 ， 没 有 经 验 的 人 甚至 无 从 下 手 去 收集 全 面 的 信息 加 以 分 析 。 由 于 PHP 运 维 人 员 面 对 的 是 生产 环境 ， 因 此 掌 
握 PHP 的 性 能 分 析 和 解决 性 能 问题 是 PHP 运 维 人 员 必 备 的 非常 重要 的 能 力 。 


影响 PHP 性 能 的 点 有 很 多 ， 我 们 先 来 了 解 “ 性 能 ”这 一 概念 。 性 能 的 本 质 是 延 时 和 吞吐 率 ， 即 所 谓 的 latency 和 throughput。 知 吐 率 是 指 在 单位 时 间 里 完成 的 工作 量 ， 延 迟 是 指 一 个 请 求 从 开始 到 完成 
所 用 的 时 间 ， 有 时 也 会 认为 与 响应 时 间 是 同一 概念 。 


“ 延 时 /响应 时 间 : 一 个 PHP 的 请 求 (request) 需要 花费 多 长 时 间 来 处 理 ，PHP 执 行 需要 多 长 时 间 。 影 响 响应 时 间 的 因素 包括 PHP 代 码 的 执行 时 间 、CPU、 内 存 、 磁 盘 IO、 网 络 IO、SQL 请 求 等 。 
“ 吞吐 率 〈 对 PHP-FPM 来 说 是 RPM: Request Per Minute) : 吞吐 率 跟 响应 时 间 成 反比 ， 响 应 时 间 越 短 ， 单 位 时 间 内 可 处 理 的 请 求 次 数 越 多 ， 即 吞吐 率 越 大 。 


“ 错误 率 / 失败 率 : PHP 处 理 缓慢 会 导致 超时 或 触发 错误 、 异 常 ， 性 能 问题 也 体现 在 请 求 的 错误 率 升 高 。 


延迟 和 吞吐 可 以 体现 出 PHP 应 用 的 性 能 ， 我 们 可 以 将 它们 作为 运 维 质量 的 指标 来 进行 统计 分 析 。 从 业务 请 求 来 看 ， 我 们 要 判断 一 个 请 求 的 响应 时 间 少 于 多 少 是 合理 的 (比如 1.5s) ， 超 过 阔 值 则 可 用 性 
指标 会 下 降 ， 吞 吐 率 下 降 到 多 少 是 异常 的 ， 要 和 触发 预警 和 告警 ， 反 馈 给 业务 研发 。 错 误 是 直接 影响 用 户 使 用 的 错误 结果 ， 用 户 看 到 的 可 能 是 502、500、503 等 错误 。 错 误 率 上 升 了 一 定 是 出 现 了 故障 。 


造成 性 能 问题 的 原因 多 种 多 样 ， 深 入 了 解 PHP 的 性 能 问题 是 我 们 快速 定位 问题 点 、 快 速 解决 问题 的 基础 。 接 下 来 我 们 分 析 下 PHP 的 性 能 问题 。 


如 何 才能 知道 网 站 和 PHP 能 承载 多 大 的 访问 量 呢 ? 正常 的 情况 下 延 时 是 多 少 呢 。 我 们 通常 用 ab (Apache Bench) 工具 来 分 析 ，ab 可 以 模拟 用 户 对 网 站 发 起 请 求 ， 常 用 参数 为 -n、-c， 参 数 -n 表 示 总 请 
求 次 数 ，-c 表 示 同 时 发 起 的 并 发 请 求 数 。 例 如 要 测试 某 网 站 的 性 能 ,命令 如 下 : 


ab -n 300 -c 20 http://www.test.com/index.html 


关注 结果 中 的 “Requests per second” 和 “Time per request”: 


Requests per second: 285.54 [#/sec] (mean) 
Time per request: 1053.502 [ms] (mean) 


可 以 发 现 平均 响应 时 间 大 概 在 1s 左 右 ， 并 发 数 在 285 左 右 。 结 果 中 还 有 很 多 有 用 的 信息 ， 有 兴趣 的 读者 可 以 查阅 相关 资料 。 


7.5 ” ”PHP 故障 处 理 与 监控 


我 们 先 来 看 一 个 场景 。 


某 天 晚上 你 下 班 回 到 家 ， 刚 准备 吃饭 。 同 事 打 来 电话 : “X 工 ， 网 站 打 不 开 了 ， 打 开 首 页 都 很 卡 ， 你 赶紧 看 看 吧 ”。 你 : “ 收 到 ， 我 马上 就 看 ”。 


在 女 朋 友 的 抱怨 声 中 你 打开 了 电脑 ， 趁 着 开机 的 时 间 把 刚刚 放松 的 心情 重新 收拾 起 来 ， 然 后 静 下 心 来 思考 30 秒 。 回 想 这 个 业务 的 服务 器 架构 ， 把 域名 输入 到 浏览 器 自己 验证 一 遍 问题 。 发 现 真 的 是 打开 
首页 都 很 慢 ， 想 想 或 查找 这 个 业务 的 服务 器 IP， 登 录 服 务 器 开始 各 项 检查 。 有 时 你 发 现 PHP 进 程 挂 了 ， 重 启 一 下 就 能 解决 ， 有 时 运气 则 没有 那么 好 ， 发 现 访问 不 断 出 现 错误 502， 排 查 半 天 也 找 不 到 原因 。 还 
得 叫 上 研发 、DBA 上 线 一 起 分 析 。 等 你 查 完 问题 ， 女 朋友 已 经 吃 完 饭 了 。 


0 


是 不 是 很 熟悉 的 场景 ? 也 许 你 觉得 这 些 好像 都 很 正常 ， 都 是 这 样 的 过 程 呀 。 等 等 ， 故 障 从 贵 时 到 解决 完 已 经 不 知道 发 生 了 多 久 ， 你 如 果 很 熟悉 业务 则 可 以 回忆 起 架构 ， 但 是 如 果 不 熟 悉 ， 那 就 还 
得 找 架 构图 或 CMDB， 这 资料 还 得 是 最 新 的 。 如 果 机 器 负载 看 起 来 还 比较 正常 ， 你 得 再 静 下 心 来 想 想 问题 到 底 出 在 哪里 了 ， 即 使 发 现 是 机 器 负载 的 问题 ， 你 又 怎样 才能 快速 处 理 呢 ? 可 是 你 想 过 没有 ， 时 间 
就 这 样 在 一 分 一 秒 地 过 去 ， 而 我 们 对 故障 还 是 有 点 懂 。 如 果 是 经 验 丰富 的 研发 或 运 维 或 许 还 能 知道 问题 大 概 出 在 哪里 。 但 如 果 是 运 维新 手 呢 ， 只 能 找 研 发 一 起 慢 慢 排查 ， 而 用 户 是 不 会 等 你 的 ， 所 以 你 只 好 
眼睁睁 地 看 着 用 户 流失 了 。 大 型 网 站 上 是 不 允许 出 现 这 种 情况 的 ， 一 旦 出 现 老板 肯定 要 追 责 ， 要 进行 事故 定 级 ， 如 果 背 上 个 一 二 级 事故 ， 那 么 年 终 奖 恐怕 得 大 打折 扣 。 


故障 问题 跟 性 能 问题 息息相关 ， 又 有 不 同 之 处 。 性 能 可 以 体现 为 吞吐 低 和 高 延 时 ， 达 到 一 定 的 量 或 突破 极限 后 往往 就 成 为 了 故障 。 本 节 将 尝试 为 大 家 分 析 PHP 故 障 ， 介 绍 快速 分 析 方法 和 解决 方法 。 


7.6 .小结 


很 多 人 对 PHP 有 一 种 固有 的 印象 : 它 是 一 种 传统 的 PHP 开 发 语言 ， 开 发 简单 ， 运 维 简单 ， 似 乎 很 容易 就 能 掌控 住 。 其 实在 业务 量 还 小 的 时 候 ， 业 务 如果 正 常 运行 ， 一 切 似乎 都 是 那么 简单 、 自 然 。 然 而 
在 运 维 几 个 较 大 的 项 目 后 ， 我 改变 了 这 种 看 法 ， 其 实 我 们 了 解 的 可 能 只 是 一 小 部 分 ， 且 我 们 对 PHP 的 了 解 并 不 像 自己 想象 的 那么 深入 。 也 有 不 少 人 认为 PHP 技 术 栈 的 团队 无 法 解决 较 大 规模 、 高 并 发 项 目的 
能 问题 ， 其 实 我 认为 这 也 许 是 团队 运 维 建设 不 足 的 原因 吧 。 


本 章 是 个 人 几 年 来 积累 的 一 点 点 经 验 总 结 ， 希 望 能 对 读者 在 PHP 运 维 工 作 上 有 所 帮助 。7.1、7.2 节 讲 了 一 些 PHP 认 识 和 开发 、 架 构 等 较 偏 原理 方面 的 内 容 ， 有 了 较 深 的 认识 和 理解 之 后 ， 对 运 维 工作 会 
有 很 大 的 帮助 。 7.3 节 讲 了 PHP 进 程 的 部 署 ，PHP 代 码 的 发 布 ， 这 些 在 有 些 读者 看 来 可 能 无 关 紧要 ， 但 在 稍 大 的 团队 或 多 团队 的 公司 里 ， 这 些 会 显得 重要 得 多 ， 提 升 的 不 仅 是 个 人 的 效率 ， 更 是 提升 了 整个 团 
队 乃 至 整个 公司 的 效率 ， 减 少 了 沟通 、 等 待 和 争论 的 成 本 。PHP 的 性 能 问题 和 故障 是 分 不 开 的， 故障 处 理 可 能 是 运 维 做 得 最 多 的 工作 ，7.4、7.5 节 讲 PHP 的 性 能 分 析 和 故障 处 理 时 ， 讲 到 了 多 种 方法 用 于 分 
析 PHP 的 性 能 问题 ， 以 及 故障 处 理 的 一 些 思考 。 


随 着 云 计 算 、 移 动 互联 网 、 各 种 海量 的 服务 器 规模 和 业务 规模 的 网 站 项 目的 发 展 ， 运 维 所 面临 的 挑战 也 越 来 越 大 ， 同 时 也 要 看 到 最 近 几 年 运 维 界 的 发 展 很 快 、 交 流 分 享 也 很 活跃 ， 各 种 技术 、 平 台 都 涌 
现 出 来 ， 我 认为 这 对 广大 运 维 既是 挑战 也 是 机 遇 。 本 章 是 对 PHP 运 维 技术 的 一 些 总 结 ， 也 融合 了 对 运 维 技术 、 自 动 化 、 平 台 化 的 一 些 思考 ， 希 望 对 读者 有 所 帮助 ， 这 也 是 我 莫大 的 荣幸 。 


第 8 章 ”应 用 系统 运行 分 析 


作者 简介 


彭 华 盛 ， 目 前 任职 广发 银行 数据 中 心 ， 是 渠道 交易 应 用 系统 团队 负责 人 ， 主 要 负责 互联 网 、 中 间 业 务 、 呼 叫 中 心 等 渠道 交易 应 用 系统 运 维 管理 ， 同 时 也 负责 监控 等 自动 化 运 维 建设 ， 对 应 用 生产 运 维 管 
理 、 自 动 化 建设 等 工程 有 较 深刻 的 见解 ， 有 兴趣 的 读者 可 以 关注 作者 的 微 信 公众 号 “ 运 维 之 路 ” ( 微 信号 : HuashengPeng001) 。 


随 着 业务 的 发 展 ， 企 业 里 新 建 应 用 系统 的 数量 迅速 增加 ， 架 构 变 得 越 来 越 复杂 ， 业 务 对 应 用 系统 的 稳定 性 和 可 靠 性 的 要 求 也 越 来 越 高 。 在 传统 企业 中 ， 运 维 部 门 主 要 往 基 础 云 建设 与 业务 大 数据 建设 的 
方向 发 展 ， 而 对 于 承载 业务 运营 开展 的 应 用 系统 的 运行 情况 缺乏 足够 的 关注 ， 导 致 应 用 运 维 团 队 疲 于 被 动 处 理 故 障 应 急 和 善后 ， 以 及 重复 的 整改 处 理工 作 中 。 


应 用 运 维 团队 除了 多 干 活 以 外 ， 还 面临 这 样 一 个 窒 境 : 老板 认为 应 用 运 维 做 得 不 够 细致， 保障 不 力 ; 业务 认为 应 用 运 维 不 给 力 ， 系 统 不 稳定 ; 开发 觉得 应 用 运 维 不 懂 应 用 ， 只 会 做 操作 性 的 工作 。 


为 解决 应 用 运 维 的 困境 ， 我 们 开展 了 一 系列 应 用 运 维 的 优化 工作 ， 包 括 操 作 性 工作 的 自动 化 建设 ， 并 探索 应 用 运 维 向 运 维 开发 、 运 维 分 析 转 型 。 本 文 是 从 运 维 分 析 的 角度 来 讲解 应 用 运 维 团 队 在 应 用 系 
统 运行 分 析 方 面 所 做 的 自我 解放 ， 从 被 动 式 向 前 购 性 运 维 方式 的 转变 。 本 章 的 写作 目的 就 是 帮助 应 用 运 维 人 员 顺 利 完成 这 种 转变 ， 这 里 主要 从 应 用 系统 运行 分 析 的 角度 展开 来 讲 。 


应 用 系统 运行 分 析 具 有 以 下 特点 : 


“ 涵盖 系统 资源 、 数 据 库 、 中 间 件 等 标准 化 的 性 能 容量 数据 分 析 。 

“ 涵盖 应 用 交易 级 〈 交 易 量 、 耗 时 、 成 功率 、 响 应 率 等 ) 标准 化 的 性 能 数据 分 析 。 

“ 提供 各 应 用 系统 自身 业务 特点 的 业务 专家 式 数据 分 析 的 数据 采集 、 数 据 建 模 的 自动 化 支持 。 
“ 提供 可 视 化 、 数 据 采 集 、 数 据 建 模 分 析 、 数 据 归档 、 数 据 访问 接口 的 系统 自动 化 支持 。 

“ 提供 可 订阅 式 的 可 视 化 报告 ， 供 业务 和 运 维 管理 团队 决策 之 用 。 


运行 分 析 所 涉及 的 运营 分 析 系 统 架构 如 图 8-1 所 示 : 


可 视 化 服务 


批量 API 接口 


APM 工具 


应 用 系统 应 用 系统 


8.1 “分 析 模 型 


在 制定 运行 分 析 方 案 时 ， 不 仅 要 考虑 运行 分 析 需 要 分 析 什么 信息 ， 还 需要 考虑 如 何 减少 方案 的 实施 推广 难度 。 为 了 便于 推广 ， 建 议 将 数据 的 采集 、 保 存 和 标准 化 分 析 交 给 机 器 去 处 理 ， 运 维 人 员 尽量 只 
负责 观察 和 分 析 数 据 ， 为 此 在 应 用 运行 分 析 的 过 程 中 ， 我 们 定 了 如 下 3 个 原则 。 


: 能 自动 化 的 则 用 自动 化 来 实现 : 分 析 涉 及 的 数据 采集 、 加 工 消 费 、 可 视 化 都 可 由 自动 化 实现 。 
“ 解决 主要 的 问题 : 评估 应 用 运 维 成 熟 度 的 角度 有 很 多 ， 鉴 于 各 应 用 系统 的 逻辑 不 一 致 ， 运 行 分 析 采 用 2/8 原 则 ， 主 要 进行 性 能 、 容 量 、 容 户 体验 的 分 析 。 
“ 简化 分 析 方 法 : 找 出 运行 分 析 指 标的 共性 ， 过 滤 不 同 应 用 系统 的 差异 性 ， 将 分 析 方 法 原子 化 。 


运行 分 析 是 一 个 长 期 实施 的 过 程 ， 仪 仅 依 靠 运 维 人 员 经 验 的 分 析 很 难保 证 运行 分 析 的 质量 ， 因 此 需要 将 经 验 转化 为 机 器 分 析 模型 。 在 分 析 模型 方面 ， 主 要 是 对 不 同类 型 系统 的 分 析 方 法 进行 分 解 ， 以 得 
到 一 些 共性 的 分 析 方法 ， 即 将 经 验 总 结 出 来 的 分 析 方 法 进行 标准 化 的 过 程 。 以 下 将 简单 介绍 其 中 的 几 个 模块 。 


8.2 ”运行 分 析 平 台 建 设 


通过 前 面 所 讲 数据 采集 与 数据 模型 的 建立 ， 数 据 分 析 的 基本 模块 已 经 实现 ， 接 下 来 需要 考虑 如 何 将 运行 分 析 推广 下 去 。 运 行 分 析 平 台 架 构 如 图 8-5 所 示 。 在 运行 分 析 的 推广 过 程 中 ， 可 能 会 遇 到 如 下 这 些 
问题 : 


容量 分 析 3 pl lw 


可 视 化 服务 


APM 工具 


图 8-5 ”运行 分 析 平台 架构 
“ 需要 手工 采集 运行 数据 ， 且 数据 收集 耗 时 很 长 。 
: 平均 耗 时 120 毫 秒 是 正常 的 吗 ? 无 法 快速 找到 上 个 月 的 分 析 情 况 进 行 对 比 。 
“ 分 析 的 报告 无 法 及 时 提交 给 决策 层 进行 分 析 。 
“ 缺少 一 个 可 视 化 的 系统 。 


本 节 主 要 介绍 数据 的 采集 、 分 析 、 决 策 ， 以 及 数据 可 视 化 平台 的 建设 方案 。 


8.3 ”呼叫 中 心 系统 运行 分 析 示 例 


本 节 主 要 通过 介绍 呼叫 中 心 系统 的 运行 分 析 来 回顾 上 面 提 到 的 运行 分 析 技术 方案 。 呼 叫 中 心 系统 的 运行 状态 主要 包括 话 务 、 坐 席 两 部 分 ， 其 中 话 务 部 分 又 包括 网 关 、 


子 模块 ; 坐席 部 分 则 


包括 坐席 应 


、 运 管 、 报 表 、 网 关 等 模块 。 整 个 应 


运行 分 析 主要 如 下 几 点 : 


“ 根据 运 维 及 业务 的 需求 ， 对 运行 分 析 的 服务 器 范围 及 交易 分 析 指 标 做 加 法 与 减法 。 


“ 根据 业务 需求 增加 个 性 化 的 业务 分 析 方向 。 


“ 根据 分 析 的 数据 问题 做 进一步 分 析 ， 并 转化 为 后 续 优化 计划 的 决策 依据 。 


84 “小 结 


上 述 应 


(1) 通过 应 


运行 方案 仍 在 实施 中 不 断 进 行 完 善 ， 


运行 分 析 的 开展 ， 全 面 转变 运 维 人 员 的 工作 思维 ， 由 操作 向 分 析 进 行 转变 ， 由 


后 续 主 要 的 优化 方向 是 : 


局 部 到 整体 进行 把 控 ， 由 被 动 应急 向 主动 出 击 进行 转变 。 


(2) 为 应 


(3) 通过 大 数据 技术 的 引入 ， 提 高 运行 分 析 效率 ， 将 运行 分 析 由 T+N 向 T 


(4) 提高 应 


作者 简介 


蒋 迪 ， 上 海 沃 帆 信息 科技 有 限 公 司 资深 虚拟 化 基础 架构 工程 是 ， 从 事 云 平台 研发 工作 ， 主 要 包括 OpenStack、oVirt 的 虚拟 化 、 网 络 、 存 储 组 件 


系统 的 资源 、 性 能 运行 情况 建立 一 个 运行 基线 ( 优 、 正 常 、 差 ) ， 为 系统 管理 提供 容量 决策 支持 ， 


运行 分 析 的 深度 ， 将 运行 数据 与 业务 运营 活动 的 开展 、 客 户 体验 等 方面 进行 数据 关联 分 析 ， 挖 掘 影响 业务 开展 的 功能 设计 或 应 


反 推 开发 团队 优化 应 


性 能 ， 推 动 应 


实时 分 析 的 方向 发 展 ， 为 监控 


动 化 工 


提供 预测 性 的 事件 预警 等 ， 完 善 运 维 


自动 化 体系 的 建设 。 


性 能 因素 ， 促 进 业务 开展 。 


第 9 章 ”虚拟 化 中 存储 配置 典型 场景 : 启动 风暴 


云 服务 器 ) ， 云 平台 架构 与 相关 开发 (自主 产品 与 开源 软件 ) ， 识 入 式 系 统 与 设备 (ARM 架构 ) ， 分 布 式 存储 (GlusterFS) 。 多 次 参与 银行 与 教育 领域 的 私有 云 架构 设计 与 实施 。 


启动 风暴 是 私有 云 桌面 中 经 常会 遇 到 的 问题 ， 不 管 是 开源 平台 还 是 闭 源 平台 ， 或 多 或 少 都 会 遇 到 此 类 问题 。 本 章 将 以 oVirt 为 基础 平台 介绍 


平台 存储 配 


优 ， 然 后 在 本 章 未 尾 处 会 介绍 类 似 于 杀毒 风暴 的 解决 办 法 ， 希 望 通过 本 章 的 介绍 ， 读 者 在 解决 此 类 问题 时 能 够 尝试 从 不 同 的 角度 进行 思考 。 


在 启动 虚拟 桌面 时 ， 虚 拟 机 系统 内 部 会 产生 远 高 于 正常 运行 状态 时 的 CPU 负载 与 MO 请 求 ， 当 同时 启动 的 虚拟 机 达到 一 定数 量 时 ， 就 会 对 服务 器 造成 极 大 的 压力 ， 这 种 情况 一 般 称 为 “启动 风 


有 桌面 云 中 ， 尤 其 是 教学 环境 中 ， 会 定时 定量 集中 启动 一 批 桌面 ， 如 果 启 动 时 服务 器 的 CPU 能 力 或 存储 能 力 未 能 满足 其 需要 ， 那 么 就 会 对 全 部 桌 画 


的 启动 造成 影响 ， 甚 至 假死 。 类 似 卫 


， 并 针对 这 种 配置 下 的 桌面 云 启动 


自助 语音 、 录 音 、 多 媒体 等 十 几 个 
系统 涉及 150 个 操作 系统 分 区 ， 如 此 多 服务 模块 的 运 维 管理 必须 进行 前 瞻 性 的 运行 分 析 才 能 提前 发 现 问题 ， 减 少 问题 。 


架构 改造 ， 进 一 步 保 障 系统 稳定 运行 。 


+ 及 其 在 桌面 云 领 域 的 应 用 。 涉 及 虚拟 化 产品 应 用 【 云 桌面 、 


风暴 进行 调 


暴 ”。 在 私 


造成 


压力 的 场景 还 有 登录 风暴 、 杀 毒 风暴 (扫描 风暴 ) 等 。 
启动 风暴 的 发 生 条 件 并 不 确定 ， 


以 我 个 人 的 经 验 和 客户 


因为 它 与 服务 器 的 CPU、 存 储 、 系 统 配置 及 虚拟 机 的 参数 直接 相关 ， 所 以 改善 启动 风暴 大 多 是 从 这 些 相关 方面 直接 入 手 。 


反馈 的 情况 来 说 ， 其 中 存储 的 改变 对 启动 风暴 的 影响 是 最 大 的 ， 而 针对 存储 的 优化 则 可 以 从 最 基本 的 存储 性 能 及 其 存储 结构 方面 进行 调整 。 


本 章 将 尝试 模拟 桌面 云 的 一 般 场景 ， 启 动 相当 数量 的 虚拟 机 来 重 现 启动 风暴 ,尝试 使 


9.1 


在 开始 存储 结构 优化 的 实验 之 前 ,我们 先 来 了 解 一 下 云 平台 的 一 般 存 储 配置 ， 包 括 实例 硬盘 的 创建 方式 与 所 在 的 存储 位 


9.2 


分 


县 存储 的 方法 处 理 之 ， 然 后 在 现 有 方法 的 基础 上 提出 一 些 较为 党 


ovVirt 虚 拟 化 平台 配置 介绍 


， 以 便 基 于 此 进行 优化 。 


启动 风暴 相关 系列 实验 


接 下 来 ， 我 们 直接 使 


raw 格 式 的 影响 ， 统 一 使 用 qcow2 格 式 。 所 有 的 虚拟 机 均 使 用 Virt1O 接 口 


FF 启动 风暴 对 存储 I/O 会 


的 改进 措施 ， 希 望 对 读者 有 所 帮助 。 


硬盘 写 入 操作 ， 比 如 日 志 记录 、 例 行 任务 等 系统 操作 ， 我 在 其 开机 运行 1 个 小 时 之 后 再 进行 模板 制作 。 


实验 服务 器 配置 为 双 路 X5670@2.93GHz、64GB 内 存 、 一 块 Intel 480GB 企 业 级 SSD、 一 块 WD 1TB 企 业 级 机 械 硬 盘 、 操 作 系统 为 CentOS 7.1。 


9.3 ”私有 云 中 处 理 启动 风暴 的 常用 方法 


本 节 将 介绍 一 下 我 们 在 私有 云 中 处 理 启动 风暴 的 方法 ， 这 里 所 介绍 的 方法 可 能 并 不 适 


于 所 有 应 


场景 ， 但 相信 仍 有 一 定 的 参考 价值 。 


QEMU 启 动 一 批 虚拟 机 ， 并 观察 期 间 的 服务 器 负载 情况 ， 然 后 在 更 换 存储 配置 的 情况 下 再 一 次 启动 它们 ， 最 后 对 比 两 次 的 服务 器 负载 情况 。 实 验 过 程 中 ， 不 考虑 qcow2 格 式 与 
、qcow2 格 式 硬盘 、Windows XP 32 位 操作 系统 ， 无 任何 附加 软件 。 同 时 ， 为 减少 Windows XP 系统 启动 后 对 快照 硬盘 产生 额外 的 


9.4 人 小结 


从 模拟 试验 中 我 们 可 以 看 到 服务 器 运行 一 定数 量 (20~50) 的 虚拟 桌面 下 的 存储 MO 负载 ， 了 解 到 桌面 在 启动 时 的 读 写 请 求 分 布 状况 ， 而 后 我 们 再 根据 实验 结果 提出 桌面 功能 的 简单 优化 策略 。 


总 之 ,目前 要 完全 避免 启动 风暴 、 登 录 风 暴 还 需要 较 大 的 成 本 投入 ， 而 在 私有 桌面 云 中 ,我 们 最 好 合理 地 规划 存储 以 减少 风暴 带 来 的 影响 。 


对 于 读者 来 说 ， 找 到 合适 的 就 好 ， 毕 竟 没 有 完美 的 架构 ， 都 是 在 发 展 中 逐渐 进化 而 满足 甚至 超越 需求 的 。 


第 10 章 ”私有 云 桌面 网 络 组 建 


作者 简介 


蒋 迪 ， 上 海 沃 帆 信息 科技 有 限 公司 资深 虚拟 化 基础 架构 工程 师 ， 从 事 云 平台 研发 工作 ， 主 要 包括 OpenStack、oVirt 的 虚拟 化 、 网 络 、 存 储 组 件 及 其 在 桌面 云 领域 的 应 用 。 涉 及 虚拟 化 产品 应 用 ( 云 桌 面 、 
云 服务 器 ) ， 云 平台 架构 与 相关 开发 (自主 产品 与 开源 软件 ) ， 谍 入 式 系 统 与 设备 (ARM 架 构 ) ， 分 布 式 存储 (GlusterFS) 。 多 次 参与 银行 与 教育 领域 的 私有 云 架 构 设计 与 实施 。 


2016 年 年 初 ，Amazon 刚 刚 推 出 Workspace， 即 公有 云 形式 的 桌面 。 在 此 之 前 的 几 年 中 ， 桌 面 云 主要 是 以 私有 云 的 形式 存在 ， 主 要 原因 除了 安全 性 以 外 ， 还 有 就 是 桌面 协议 性 能 所 引起 的 带宽 与 延迟 问 


题 。 虽 然 带宽 问题 在 私有 云 中 并 不 是 很 明显 ， 但 是 仍然 需要 合理 规划 以 增强 其 整体 安全 性 与 利用 率 。 本 章 将 介绍 私有 云 桌面 中 组 网 的 基础 技术 及 其 实现 方式 ， 然 后 再 列举 oVirt 和 OpenStack 中 关于 虚拟 桌面 
网 络 的 组 建 方式 。 最 后 我 将 尝试 从 多 个 方面 解析 典型 私有 云 桌面 中 网 络 配置 的 选择 ， 希 望 对 私有 云 三 商 同仁 及 企业 网 管 有 一 定 的 帮助 。 


10.1 桌面 云 常用 网 络 


我 所 接触 的 虚拟 化 桌面 云 平台 中 ， 其 组 网 实现 可 以 是 VLAN、NAT、 桥 接 、OpenvSwitch 等 。 接 下 来 本 章 将 介绍 如 何在 libvirt/QEMU 组 合 中 使 用 这 些 网 络 。 


10.2 oVirt/OpenStack 的 桌面 网 络 应 用 


oVirt 的 虚拟 机 网 络 默认 使 用 桥接 ， 而 OpenStack 可 以 选 配 使 用 桥接 、OVS 等 作为 后 端 。 本 节 将 以 oVirt 为 主 ，OpenStack 网 络 为 辅 ， 为 大 家 介绍 一 些 典型 的 桌面 云 网 络 配置 场景 。 


10.3 小 结 


在 平时 的 实施 中 ,我们 可 以 将 组 网 按照 IP 资 源 稀缺 性 依次 排列 出 NAT>OVS> 桥 接 ; 同时 按照 访问 权限 范围 排序 桥接 >OVS=NAT。 对 于 使 用 频率 较 高 的 私有 云 而 言 ， 我 们 需要 根据 客户 的 运 维 水 平 、 实 
施 改 造 难度 ， 结 合 现场 环境 和 特殊 需求 进行 综合 考虑 ， 这 样 才能 得 到 比较 满意 的 组 网 规划 。 


第 11 章 ” 浅 谈 服务 器 交付 的 那些 事 儿 


作者 简介 


赵 曼 ，RHCA/RHCSS/MCITP， 熟 悉 x86 平 台 基 础 架构 系统 的 建设 、 管 理 及 运 维 工作 ， 现 就 职 于 京东 金融 网 银 在 线 ， 担 任 支付 产品 技术 部 高 级 系统 工程 师 一 职 ; 9 年 以 上 互联 网 金融 、 电 信 、 政 府 等 多 
领域 背景 的 从 业 资历 ， 千 万 级 大 型 项 目 经 验 ， 优 秀 的 文档 撰写 能 力 及 沟通 技巧 ; 曾 参 与 中 国 国家 电子 政务 多 项 重点 工程 的 安全 信任 体系 建设 工作 ， 曾 为 中 国 移动 、 国 航 等 大 型 企业 提供 运 维 技术 支持 ; 喜欢 
从 事 新 技术 研究 、 优 化 方案 等 工作 。 工 作 前 倾向 于 制定 有 计划 且 详 细 的 执行 方案 ， 擅 长 处 理 远 期 规划 设计 类 事件 。 善 于 在 工作 实践 中 分 析 问 题 、 总 结 经 验 ， 属 于 改进 优化 能 力 类 型 的 工作 者 。 致 力 于 对 IT 技 
术 的 精 研 和 业务 分 析 ， 帮 助 企业 定制 更 加 实际 高 效 的 解决 方案 。 


人 们 一 提 到 IT 运 维 ， 必 然 离 不 开 上 T 建 设 。 随 着 市 场 化 的 不 断 壮 大 ， 企 业 对 设备 的 需求 量 也 呈现 出 井喷 式 的 增长 。 这 对 于 运 维 来 说 ， 海 量 的 系统 交付 工作 成 为 了 一 种 严 苛 的 考验 。 作 为 运 维 大 军 中 的 一 个 
无 名 小 卒 ， 我 也 经 历 过 那样 一 段 艰苦 的 岁月 历程 。 


刚 加 入 京东 金融 的 时 候 ， 当 时 的 系统 组 只 有 两 个 人 ， 几 和 百 台 服务 器 。 我 和 另外 一 个 负责 网 络 的 同事 从 无 到 有 完成 了 两 个 IDC 机 房 的 建设 工作 。 现 如 今 ， 京 东 金 融 已 经 实现 了 同城 多 活 多 机 房 的 建设 ， 拥 
有 了 近 万 台 服 务 器 的 规模 。 回 想 于 此 ， 多 少 有 些 心得 。 因 此 我 在 这 里 扎 以 小 文 ， 权 当 抛砖引玉 ， 以 供 大 家 参考 。 如 有 不 到 之 处 ， 还 望 高 人 多 多 公正 。 


11.1 ”设备 签收 的 学 问 


签收 地 址 的 详细 填写 非常 重要 。 我 们 采购 的 服务 器 非常 多 ， 收 货 就 是 个 大 工程 ， 最 少 也 得 几 百 台 。 有 时 候 物 流 公 司 忙 不 过 来 ， 就 会 外 包 给 第 三 方 派送 。 而 这 些 第 三 方 有 时 会 显得 太 过 “精明 ”， 他 们 很 
了 解 IDC 机 房 会 有 专人 负责 拆 箱 上 架 的 工作 。 如 果 收 货 地 址 写 得 不 详细 ， 他 们 把 设备 拉 到 楼 下 就 算 完成 任务 了 。 有 些 人 甚至 连 卸 货 都 不 负责 ， 还 一 个 劲 儿 地 催促 你 赶快 签收 。 遇 上 这 种 情况 将 会 很 麻烦 ， 因 


为 IDC 不 是 为 你 一 家 公司 服务 的 ， 配 备 人 员 太 少 的 话 就 会 延误 收 货 速 度 。 另 外 ， 服 务 器 不 拆 箱 也 没 法 正常 验收 ( 因 物流 原因 造成 损坏 的 设备 应 当 拒 收 ) 。 如 果 你 把 签收 地 址 写 到 了 机 房 里 面 ， 你 就 可 以 要 求 
对 方 负责 卸货 并 拆 箱 验 收 (这 本 来 就 是 他 们 的 分 内 工作 ) ，IDC 负 责 上 架 。 这 样 我 们 就 把 人 员 全 部 都 调动 了 起 来 ， 有 效 地 提升 了 工作 效率 。 签 收 地址 在 机 房 里 面 ， 只 要 设备 没 上 架 ， 你 就 有 理由 拒签 。 


对 于 设备 的 验收 ， 一 般 我 的 做 法 是 这 样 的 : 


(1) 将 设备 卸 到 空 场 上 (这 需要 IDC 有 一 定 的 场地 条 件 ) ， 要 求 物流 按照 箱 体 朝 上 、 标 签 冲 外 的 规则 码 放 。 如 果 外 包装 箱 上 有 服务 器 型 号 ， 还 可 以 分 类 码 放 。 


(2) 用 记号 笔 在 箱 体 上 标注 记号 ， 清 点 设备 数量 。 


(3) 拆 箱 验 货 ， 验 收 完毕 的 设备 准许 上 架 。 


在 这 个 过 程 中 有 一 个 困难 : 我 们 有 一 些 型 号 相同 但 配置 不 同 的 服务 器 。 虽 然 标签 上 有 配 


清单 ， 但 要 求 物流 按照 配置 清单 进行 分 类 就 显得 不 太 合理 了 ， 而 且 这 些 设备 数量 占 比 不 大 ， 也 没 法 单独 发 送 。 
因此 我 就 养 成 了 一 个 习惯 : 每 次 收 货 时 都 带 着 记号 笔 ， 在 卸货 的 过 程 中 ， 我 按照 配置 自己 做 分 类 标记 。 钾 货 完成 时 ， 分 类 标记 也 就 做 完了 。 最 后 的 数量 清点 工作 就 非常 轻松 了 。 


我 曾经 建议 过 厂商 设置 一 个 彩 标 方案 ， 自 定义 一 套 彩色 背景 的 标签 。 厂 商 和 大 客户 签单 时 ， 在 客户 制订 的 类 型 与 自 定义 色彩 列表 之 间 建 立 一 个 关系 映射 实例 。 例 如 A 型 设备 对 应 红色 标签 ，B 型 设备 对 应 
黄色 标签 。 在 进行 设备 验收 时 ， 客 户 可 根据 标签 颜色 进行 分 类 ， 从 而 有 效 提 升 签收 效率 ， 增 强 用 户 的 体验 效果 ， 但 是 这 个 建议 始终 未 被 采纳 。 也 许 作为 局 外 人 ， 他 们 不 曾 有 过 这 样 的 体会 。 一 个 人 面 对 几 百 


台 型 号 各 异 的 设备 ， 核 对 配置 是 一 件 非常 辛苦 甚至 是 痛苦 的 事情 。 因 为 亲身 经 历 过 这 种 事 ， 所 以 我 也 希望 各 大 厂商 今后 能 多 一 些 同 理 心 ， 多 注重 一 些 细节 上 的 改善 ， 做 好 客户 服务 才 是 与 竞争 对 手 拉 开 距 离 
的 制胜 法 宝 。 


11.2 ”服务 器 设置 


服务 器 的 有 些 配置 可 能 无 法 预定 义 ， 所 以 你 一 定 会 遇 到 二 次 配置 的 场景 。 这 里 大 体 上 可 以 分 为 BIOS 配 置 、 电 源 策略 配置 和 带 外 管理 配置 三 种 类 型 。 


对 于 带 外 管理 地 址 的 配置 ， 通 常 有 两 种 做 法 : 


(1) 事先 规划 各 机 架 服 务 器 的 带 外 地 址 ， 设 备 上 架 后 按照 规划 进行 配置 。 


(2) 提前 向 厂商 索取 带 外 管理 卡 的 MAC 地 址 表 ， 采 用 DHCP 地 址 绑 定 进行 分 配 。 


第 一 种 方式 的 资产 信息 在 部 署 前 完成 ， 设 备 排列 规范 整齐 ， 便 于 机 


人 员 的 日 常 运 维和 管理 。 适 用 于 尚 不 具备 完善 有 效 的 CMDB 系 统 的 场景 。 第 二 种 方式 的 部 署 效率 更 高 ， 还 需要 配合 IPMI 与 LLDP 完 
成 数据 采集 的 工作 ， 将 资产 信息 填写 入 库 。 但 这 也 带 来 了 一 个 比较 大 的 挑战 。 设 备 是 随机 码 放 的 ， 使 用 DHCP 分 配 后 的 带 外 地 址 在 机 架 上 也 是 散 列 分 布 的。 因此 设备 维护 对 CMDB 系 统 有 很 强 的 依赖 性 ， 这 
就 要 求 CMDB 系 统 所 采集 的 信息 必须 准确 无 误 。 其 实现 难度 还 是 比较 高 的 ， 里 面 存 在 着 很 多 不 确定 因素 的 干扰 (例如 线路 接 错 ) ， 会 对 数据 采集 产生 较 大 的 影响 。 因 此 对 于 程序 的 逻辑 判断 方面 ， 有 着 非常 
复杂 而 严格 的 要 求 。 因 为 当时 整个 运 维 部 的 成 员 不 超过 20 个 人 ， 没 有 精力 去 做 CMDB 系 统 ， 所 以 早期 我 们 采用 的 是 第 一 种 方式 来 实现 。 


但 是 ， 服 务 器 设置 工作 也 是 一 项 繁重 的 劳动 。 纯 手工 操作 的 效率 只 有 100 台 /人 天 ， 因 此 使 用 命令 行 接口 来 完成 大 批量 修改 的 工作 势 在 必 行 。 本 章 将 以 DELL 的 Rack 系 列 服务 器 为 例 向 大 家 介绍 一 下 如 何 
进行 带 外 管理 的 初始 化 。 


准备 一 台 装 有 Linux 系 统 的 笔记 本 ， 一 根 30 米 长 的 网 线 ， 设 备 正常 加 电 ， 带 外 管理 网 络 调 通 。 参 考 命令 如 下 ， 请 注意 执行 的 顺序 。 


1. 设 置 带 外 地 址 可 | 


体 的 设置 方法 如 下 : 


ipmitool -I lanplus -H 192.168.0.120 -U <USER> -P <PASSWORD> lan set <CHANNEL> netmask <NETMASK> 
ipmitool -I lanplus -H 192.168.0.120 -U <USER> -P <PASSWORD> lan set <CHANNEL> defgw ipaddr <GATEWAY> 


ipmitool -I lanplus -H 192.168.0.120 -U <USER> -P <PASSWORD> lan set <CHANNEL> ipaddr <IPADDR> 注 : 192.168.0.120 是 出 厂 的 默认 地 址 ， 只 能 接 一 台 改 一 台 ， 因 此 长 网 线 可 以 让 你 在 机 房 的 正中 间 固 定位 : 


2. 修 改 带 外 管理 的 用 户 名 和 密码 


具体 的 修改 方法 如 下 : 


ipmitool -I lanplus -H <IPADDR> -U <USER> -P <PASSWORD> user set name <USER ID> <USER NAME> 
ipmitool -I lanplus -H <IPADDR> -U <USER> -P <PASSWORD> user set password <USER ID> <NEW PASSWORD> 


3. 开 启 VNC 功 能 


具体 的 开启 方法 如 下 : 


racadm set idrac.vncserver.enable enabled 

racadm set idrac.vncserver.password <PASSWORD> 

racadm set idrac.vncserver.port <PORT> 

racadm set idrac.vncserver.timeout <SECOND> 注 : DELL 的 VNC 功 能 非常 棒 ， 登 录 严 度 超 快 。 另 外 1.57 以 后 版 本 的 firmware 对 花屏 问题 做 了 很 大 修缮 


， 稳 定性 大 大 增加 。 建 议 把 timeout 的 值 调 大 一 些 。 现 在 我 已 经 把 慢 知 


4. 其 他 注意 事项 


(1) 关于 执行 jpmitool 命 令 时 提示 “Unable to establish LAN session” 的 问题 。 一 般 有 两 种 情况 。 第 一 种 ， 带 外 管理 卡 的 问题 。 如 果 反 复 插 拔 网 线 不 起 效 ， 可 以 关闭 电源 并 拔 掉 电源 线 ， 然 后 按 住 电 
源 按钮 至 少 30 秒 进行 放电 操作 。 第 二 种 ，BIOS 设 置 问题 ， 如 果 选 项 “IPMI Over LAN” 没 有 启 


也 会 触发 这 个 错误 。 执 行 racadm set iDRAC.IPMILan.Enable Enabled 即 可 。 


(2) Boot Setting 的 启动 模式 。Boot Setting 的 默认 值 是 BIOS， 但 是 有 些 做 了 RAID 后 磁盘 空间 大 于 2TB 的 机 型 ， 这 个 值 有 可 能 会 被 设置 成 UEFi， 从 而 导致 PXE 引 导 失 败 。 大 家 可 以 看 到 图 11-1 所 示 的 
提示 还 是 比较 迷惑 人 的 。 


You haue ordered a Dell Sustem with no QS instal led . 


If you haue ordered 


direct attach 3TB or larger drives, please be aware that not all 0Ss have 
Please consult the following blog for 


support for these larger drives. 


support levels for uarious 03’s and choose your 
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图 11-1 PXE 引 导 失 败 


解决 方案 是 执行 racadm set BIOS.BiosBootSettings.BootMode Bios 进 行 调整 。 注 意 ， 


启 服务 器 电源 才能 完成 修改 。 创 建 Job 的 命令 是 racadm jobqueue create BIOS.Setup.1-1。 另 外 还 可 以 使 


关于 设置 Boot Setting 启 动 模式 的 完整 过 程 。 


@ 设 置 Boot Setting 的 启动 模式 为 BIOS : 


racadm set BIOS.BiosBootSettings .BootMode Bios 


@ 检 查 设置 结果 : 


racadm get BIOS.BiosBootSettings.BootMode 

/admin1-> racadm get BIOS.BiosBootSettings.BootMode 
[Key=BIOS .Setup.1-1#BiosBootSettings] 

BootMode=Uefi (Pending Value=Bios) 


mn 


命令 执行 完成 后 并 不 会 立即 生效 ， 此 时 的 键 值 只 是 一 个 待定 值 (Pending Value) 。 需 要 创建 一 个 Job， 然 后 8 
命令 racadm jobqueue view 来 查看 Job 的 内 容 。 


注意 : 此 时 只 是 Pending Value， 需 要 创建 Job 并 重启 主机 电源 。 


@ 创 建 Job 检 查 无 误 后 重启 主机 : 


racadm jobqueue create BIOS.Setup.1-1 
racadm jobqueue view 
ipmitool -H <IPADDR> -U <USER> -P <IPADDR> power reset 


@ 重 启 完成 后 Job 为 完成 状态 ， 再 次 检查 设置 结果 : 


racadm jobqueue view 
racadm get BIOS.BiosBootSettings.BootMode 


(3) 关于 电 ) 
两 双 鞋 ， 两 双 来 回 倒 换 着 穿 ， 总 比 只 哺 着 一 双 穿 强 。 但 要 是 你 遇 到 那 种 强制 要 求 
源 策略 的 命令 如 下 : 


racadm set System.Power.RedundancyPolicy 'Not Redundant' 
racadm set System.Power.RedundancyPolicy 'Input Power Redundant' 


11.3 ”Cobbler 的 流程 与 规划 


下 面 我 们 着 重 探讨 一 下 Cobbler 的 安装 流程 和 规划 问题 。Cobbler 各 组 件 的 关联 结构 如 


原 策略 的 调整 。 电 源 策略 有 均衡 和 宛 余 两 种 模式 。 机 柜 电 源 AB 两 路 本 身 是 独立 的 ， 只 要 总 体 耗 电 不 超过 阔 值 ， 怎 么 使 用 那 是 用 户 的 自 
户 改 成 均衡 模式 的 IDC， 不 妨 多 留 个 心眼 儿 ， 要 小 心 他 们 的 进 线 线 径 是 否 不 够 标准 ， 或 者 是 存在 线路 老化 的 问题 。 调 整 电 


。 不 过 调整 成 均衡 模式 对 IDC 会 比较 有 利 。 就 像 你 有 


11-2 所 示 。 


[全 eeje] [= 


nde)il[(S 


图 11-2 ”Cobblet 的 组 件 架构 图 


鉴于 DNS 的 特殊 性 ,我 们 将 其 从 Cobbler 的 管理 中 剥离 出 来 ， 其 他 组 件 都 交 给 Cobbler 管 理 。 前 期 已 经 对 地 址 进行 了 分 配 ， 这 里 只 需要 在 Cobbler 中 生成 system， 最 后 通过 PXE 引 导 启 动 完 成 系统 部 署 。 
生成 System 这 一 步 比 较 麻 烦 ， 因 此 我 写 了 一 个 小 程序 来 完成 这 项 工作 。 因 为 代码 中 有 部 分 代码 和 逮 辑 涉及 公司 的 敏感 信息 ， 不 方便 直接 展示 给 各 位 读者 。 因 此 这 里 只 把 这 个 程序 是 如 何 实现 的 具体 思路 和 几 
个 关键 命令 列举 出 来 。 


实现 思路 如 下 : 

(1) 对 于 支持 WS-Management 标 准 的 服务 器 ， 使 用 wsman 命 令 直 接 采 集 网 卡 的 MAC 地 址 。 
(2) 生成 带 外 地 址 、 业 务 地 址 和 MAC 地 址 之 间 的 绑 定 关系 ， 部 署 时 IP 就 和 设备 对 应 起 来 了 。 
(3) 指定 TCP/IP 设 置 、 主 机 名 、Bonding 模 式 等 ， 并 据 此 生成 创建 Cobbler system 的 命令 。 
(4) Cobbler system 创 建 完成 之 后 ， 使 用 ipmitool 命 令 将 将 下 一 次 启动 设置 为 由 PXE 引 导 。 
(5) 使 用 pmitool 命 令 启动 服务 器 开始 安装 部 署 。 


关键 命令 如 下 : 


# Collect mac address by ws-management. 

wsman enumerate 
http://schemas.dmtf.org/wbem/wscim/1/cim-schema/2/root/dcim/DCIM NICView \ 
-~h <HOST> -V -Vv -c dummy.cert -P 443 -u <USER> -p <PASSWORD> \ 

-]j utf-8 -y basic |grep PermanentMACAddress 

# Add a system and bond master into cobbler. 

cobbler system add --name=<NAME> --hostname=<HOSTNAME> \ 
--interface=<BOND NIC> --interface-type=bond \ 

--bonding-opts="miimon=100 mode=4 xmit hash policy=layer2+3" \ 
--ip-address=<BOND IP> --subnet=<NETMASK> --gateway=<GATEWAY> --static=l \ 
—-profile=<PROFILE> 

# Append slave A to bond master. 

cobbler system edit --name=<NAME> --mac==<MAC> \ 

--interface=<SLAVE1_ NIC> --interface-type=bond_slave \ 
--interface-master=<BOND NIC> \ 

—-profile=<PROFILE> 

# Append slave B to bond master. 

cobbler system edit --name=<NAME> --mac==<MAC> \ 

--interface=<SLAVE2 NIC> --interface-type=bond slave \ 
--interface-master=<BOND NIC> \ 

—-profile=<PROFILE> 

# Set host next boot from pxe. 

ipmitool -I lanplus -H <IPADDR> -U <USER> -P <PASSWORD> chassis bootdev pxe 
# Reboot host. 

ipmitool -I lanplus -H <IPADDR> -U <USER> -P <PASSWORD> power reset 


拓展 1: 关于 Bonding 模 式 的 选用 


如 果 你 研读 一 下 《RHEL Deployment Guide》 就 可 以 得 知 ，Bonding 模 式 一 共有 7 种 。 从 带宽 利用 率 的 角度 来 看 ， 肯 定 不 会 考虑 模式 1 和 模式 3。 模 式 0 存 在 数据 包 收 发 乱 序 的 问题 ， 模 式 2 仅仅 基于 二 层 作 为 
定义 域 的 hash 算 法 对 带宽 的 利用 不 够 充分 ， 而 模式 5 属于 单 向 均衡 。 这 样 一 来 就 只 剩 下 802.3ad 和 alb 两 种 模式 了 。alb 无 须 交 换 机 配置 ， 采 用 ARP 协 商 进 行 均衡 ， 每 发 送 一 次 ARP 请 求 广播 或 添加 、 删 除 一 个 slave 
节点 的 时 候 ， 都 需要 重新 协商 分 配 流量 ， 而 在 协商 之 前 所 有 流量 都 会 涌 向 一 个 当前 的 slave 端 口 。802.3ad 是 一 个 业界 标准 ， 通 过 创建 一 个 聚合 组 ， 确 保 组 内 所 有 链 路 的 速率 和 工作 模式 一 致 ， 这 种 方式 对 带宽 
的 利用 更 为 充分 。 关 于 xmit_hash_policy 的 选择 我 们 使 用 了 layer2+3 的 方式 。layer3+4 的 兼容 性 不 好 ， 而 layer2+3 在 默认 layer2 的 基础 上 增加 了 对 三 层 因素 的 考量 ， 分 配 会 更 加 均衡 。 详 细 请 参 


见 https://www.kernel.org/doc/Documentation/networking/bonding.txt。 
拓展 2: 关于 WS-Management 标 准 
WS-Management (全 称 为 Web Services-Management) 是 DMTF 组 织 基于 SOAP (Simple Object Access Protocal ， 简 单 对 象 访问 协议 ) 制定 的 一 种 开源 标准 ， 该 标准 致力 于 在 不 同 的 x86 设 备 厂商 当中 ， 提 供 一 
种 IT 基础 架构 信息 访问 与 修改 的 统一 接口 。 凡 是 支持 该 标准 的 x86 设 备 ， 对 于 有 效 管 理 资产 配置 工作 均 提供 了 极 大 的 帮助 。 例 如 ， 我 们 有 很 多 不 同 厂商 的 服务 器 ， 如 果 它 们 都 支持 WS-Management 标 准 ， 那 么 
我 们 就 可 以 通过 wsmancli 工 具 ， 去 统一 采集 所 有 服务 器 的 硬件 配置 信息 ， 也 可 以 修改 所 有 服务 器 的 带 外 管理 配置 ， 而 不 是 使 用 各 厂商 的 私有 化 工具 去 分 别管 理 。 像 AMD、DELL、Intel、Microsoft 这 些 知 名 厂 
商都 是 该 项 标准 组 的 成 员 。 当 然 最 新 的 类 似 标准 还 有 tedfish， 支 持 的 成 员 更 多 ， 但 redfish 目 前 还 没有 推广 开 来 。 


有 兴趣 的 读者 请 参见 http://www.dmtf.org/standards/wsman 和 http://www.dmtf.org/standards/redfish。 


在 谈 部 署 架构 的 规划 之 前 ， 我 们 先 看 一 下 Cobbler 体 系 架构 中 各 组 件 的 作用 。Distro 指 的 是 操作 系统 的 分 发 版 本 。 如 果 你 的 生产 环境 需要 CentOS 5、CentOS 6 和 RHEL 7 三 个 版 本 ， 那 么 你 就 需要 创建 
三 个 Distro。Distro 下 面包 含 了 Profile， 你 可 以 认为 Profile 就 是 你 的 一 个 部 署 模板 ， 不 同 的 Profile 之 间 的 差异 应 该 包括 RAID 配 置 、 分 区 和 软件 包 。 如 果 你 要 用 CentOs 6 部 署 MySQL 数 据 库 和 Web Server, 
很 显然 这 两 者 的 安装 要 求 应 该 是 不 一 样 的 ， 你 应 当 为 此 创建 两 个 不 同 的 Profile。 每 一 个 Profile 都 对 应 了 kickstart、yum repo 和 system， 这 里 重点 讲 一 下 system 的 概念 ，system 里 面包 含 了 一 台 实 际 需要 部 


中 


署 的 服务 器 的 相关 系统 信息 ， 这 些 信息 包括 主机 名 、TCP/IP 设 置 、 网 卡 Bonding 模 式 、VLAN 配 置 、 使 用 哪个 操作 系统 (由 Profile 对 应 的 Distro 来 决定 ) 、 使 用 哪些 yum 源 (由 Profile 对 应 的 yum repo 来 决 
定 ) 及 部 署 成 什么 样子 (由 Profile 对 应 的 Kickstart 来 决定 ) 等 。 按 照 面向 对 象 的 讲法 ， 如 果 说 Profile 是 类 的 话 ， 那 么 一 个 system 就 是 一 个 部 署 实例 。 如 果 你 用 名 为 MySQL 的 Profile 安 装 了 200 台 主机 ， 那 么 
就 要 创建 200 个 system。 


对 于 部 署 架构 的 规划 ， 我 会 根据 现 有 业务 场景 的 需要 ， 针 对 不 同 场景 定制 不 同 的 Distro 和 Profile， 每 个 Profile 对 应 自己 的 Kickstart。 具 体 实现 还 是 以 MySQL 和 Web Server 的 部 署 来 举例 : 首先 做 一 个 


最 小 化 系统 安装 的 模板 一 一 名 为 Base 的 Profile 和 名 为 base.ks 的 Kickstart， 在 base.ks 的 基础 上 添加 MySQL 需 要 安装 的 软件 包 并 修改 分 区 设置 ， 并 为 此 创建 MySQL 和 mysql.ks， 照 方 抓 药 再 完成 Web 和 
web.ks 即 可 。 我 希望 Kickstart 文 件 只 描述 两 个 内 容 一 一 分 区 设置 与 安装 所 需 的 软件 包 ， 其 他 的 调整 均 通过 脚本 实现 。 


置 。 


对 于 大 批量 部 署 还 有 一 种 见解 不 同 的 做 法 ， 那 就 是 采用 镜像 部 署 方案 。 这 种 方案 倾向 于 制作 一 个 涵盖 所 有 场景 需求 的 镜像 文件 ， 部 署 时 把 这 个 镜像 文件 推送 并 和 解压 到 系统 上 ， 最 后 用 脚本 修改 差异 化 配 


两 种 方案 各 有 优势 。 第 一 种 方案 如 果 发 生 了 配置 变更 ,修改 内 容 越 靠 近 分 支 ， 其 修改 成 本 就 越 低 ， 其 影响 范围 是 可 控 的 。 而 且 不 受 多 场景 差异 化 的 干扰 ， 不 必 刻 意 考 虑 融合 所 带 来 的 种 种 兼容 性 问题 。 


第 二 种 方案 并 发 能 力 更 强 ， 交 付 速 度 更 快 。 但 是 我 个 人 不 太 欣 赏 这 种 做 法 。 尤 其 是 在 对 现 有 模板 进行 软件 包 删除 、Patch 更 新 或 新 驱动 编译 的 时 候 ， 繁 琐 的 封包 操作 真 的 是 非常 麻烦 。 而 且 我 也 不 认为 前 者 
的 交付 速度 会 影响 到 业务 。 实 测 过 200 以 上 的 并 发 是 没有 任何 问题 的 ， 基 本 上 一 轮 部 署 也 就 是 几 分 钟 的 事情 。 照 此 计算 ， 如 果 不 算 机 房 的 前 置 工作 ， 一 天 至 少 也 可 以 交付 5000 台 左右 。 与 其 斤斤计较 两 种 部 


署 方 式 所 相差 的 那 一 两 分 钟 ， 还 不 如 去 做 好 业务 申请 及 交付 的 流程 优化 来 得 更 加 实在 。 


等 。 


关于 %post 脚 本 的 设计 ， 我 仅仅 使 用 curl 调 用 的 方式 来 实现 。 例 如 有 一 个 场景 A 需要 交付 ， 我 利用 curl 调 用 脚本 Profile A， 而 Profile_A 里 面 也 只 是 利用 curl 调 用 二 级 脚本 Detail01、Detail02、Detail03 
对 于 场景 B 的 交付 如 法 炮制 。 也 就 是 说 ， 每 一 个 Profile_X.ks 都 对 应 于 一 个 Profile X，Profile X 又 对 应 于 若干 个 DetailXX， 而 DetailXX 才 是 真正 完成 配置 修改 的 部 分 。 在 这 里 我 把 所 有 的 Profile_ Xx 都 放置 


到 一 个 名 为 /opt/scripts/post/ 的 子 目录 中 ， 把 所 有 的 DetailXX 放 置 到 一 个 名 为 /opt/scripts/post.d/ 的 子 目录 中 。 相 信 大 家 也 看 懂 了 ， 这 种 方式 其 实 就 是 效仿 系统 /etc/rcX.d/ 和 /etc/init.d/ 的 关系 建立 的 。 
当 进 行 系统 调试 的 时 候 ， 可 以 直接 修改 脚本 ， 运 行 一 下 就 能 看 到 效果 ， 而 不 是 重新 kick 一 遍 主机 。 


11.4 ”服务 器 安装 时 遇 到 的 各 种 坑 


每 次 做 批量 部 署 ， 在 安装 第 一 台 主机 时 总 是 会 不 顺利 ， 遇 到 的 问题 也 是 千奇百怪。 下面 我 就 把 这 些 问 题 的 解决 方法 分 享 给 大 家 。 


11.5 ”交接 后 的 故事 


后 来 团队 的 规模 慢 慢 壮大 起 来 了 ， 我 就 把 这 份 “ 前 线 差事 ”交付 给 了 其 他 同事 。 原 以 为 “艰苦 岁月 ”总 算 告 以 段落 ， 谁 想 清静 了 没 两 个 月 ， 又 冒 出 了 一 个 新 问题 。 


0 


一 位 监控 同事 找到 我 ， 说 昨天 新 交付 的 一 批 主 机 要 部 署 Check_MK， 但 是 用 Salt-Master 批 量 推送 时 特别 慢 。 我 当时 觉得 问题 很 简单 ， 无 非 就 是 如 下 几 种 可 能 


' 群 组 里 面 存 在 状态 为 down 的 minion 节 点 。 


“ Salt-Master 大 批量 并 发 操作 的 时 候 有 瓶颈 。 


“ 资源 占用 问题 。 


第 一 种 情况 确实 存在 ,但 是 排除 后 仍然 没有 解决 问题 。 新 主机 的 资源 占用 很 低 ， 而 且 只 有 salt 命 令 慢 。 我 使 用 time 命 令 对 salt 的 test.ping 进 行 了 测试 ， 发 现 usr 和 sys 所 消耗 的 时 间 加 起 来 也 不 过 0.2 秒 ， 


但 wait 的 时 间 竟然 多 达 20 多 秒 。 我 想 看 一 下 版 本 号 ， 哪 知 Salt--version 也 同样 慢 得 要 死 。 看 来 人 永远 不 能 靠 经 验 混 日 子 。 我 使 用 strace 命 令 去 跟踪 salt-version 运 行 的 整个 过 程 ， 程 序 在 进行 了 大 量 的 debug 
信息 输出 后 ， 终 于 在 某 个 时 刻 停 了 下 来 。 这 个 关键 时 段 就 是 我 们 刚才 所 谓 的 wait 时 间 ， 此 时 屏幕 上 没有 任何 输出 。 趁 此 机 会 ， 我 赶紧 截取 了 当前 屏幕 上 的 内 容 ， 然 后 等 待 着 程序 继续 运行 直至 完毕 。 当 
strace 执 行 完成 后 ， 我 把 这 个 命令 又 重复 执行 了 一 次 。 但 与 上 一 次 不 同 的 是 ， 这 次 我 把 输出 的 结果 保存 到 了 strace.log 文 件 中 以 便于 分 析 。 根 据 第 一 次 程序 暂停 时 所 截取 的 屏幕 内 容 ， 我 在 strace.log 中 找到 


了 它 的 位 置 。 这 段 代 码 是 标准 的 socket 网 络 通 信 连 接 的 过 程 ， 


看 点 关注 Connect () 函数 提交 的 sin_port 和 sin_addr 这 两 个 参数 ， 很 显然 这 是 一 个 DNS 查询 : 


socket (PF_INET, SOCK DGRAM|SOCK NONBLOCK, IPPROTO IP) = 3 


connect (3, {sa family=AF INET, sin port=htons(53), sin addr=inet addr ("x.x.x.x")}, 16) = 0 // 问题 就 出 在 这 里 
poll ([{fd=3, events=POLLOUT}], 1, 0) = 1 ([{fd=3, revents=POLLOUT}]) 
sendto (3, mT RT ONO ON ONON DNC iN Fit /i hoo aes on/ entre odd ath /one obo ne /ee ‘1 68, MSG NOSI 


poll ([{fd=3, events=POLLIN|POLLOUT}], 1, 3000) = 1 ([{fd=3, revents=POLLOUT}]) 
sendto(3, "\311\333\1\0\0\1\0\0\0\0\0\0\fexample\1lh\tchin"http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/..., 68, MSG K 


poll ([{fd=3, events=POLLIN}], 1, 2999) = 0 (Timeout) 

socket (PF INET, SOCK DGRAM|SOCK NONBLOCK, IPPROTO IP) = 4 

connect (4, {sa family=AF INET, sin port=htons(53), sin addr=inet agddr("y.y.y.y")}, 16) = 0 // 问题 就 出 在 这 里 

Poll([{fd=4，events=POLLOUT}]，1，0) = 1 ([{fd=4, revents=POLLOUT}]) 

sendto(4, "~\347\1\0\0\1\0\0\0\0\0\0\fexample\lh\tchin"http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/..., 68, MSG NOSI 


poll ([{fd=4, events=POLLIN|POLLOUT}], 1, 6000) = 1 ([{fd=4, revents=POLLOUT}]) 
sendto(4, "\311\333\1\0\0\1\0\0\0\0\0\0\fexample\1lh\tchin"http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/..., 68, MSG KN 


poll ([{fd=4, events=POLLIN}], 1, 5999) = 1 ([{fd=4, revents=POLLERR}]) 
close (3) =0 
close (4) = 


brk (0x11f3000) 0x11f3000 


X.X.X.X 和 y.y.y.y 是 我 们 的 两 台 生 产 DNS Server， 而 这 台 Salt-Master 是 访问 不 了 的 。 我 们 再 向 上 翻 看 ， 确 实 有 读 取 nsswitch.conf，hosts.conf 和 reslov.conf 等 文件 内 容 的 操作 ， 代 码 如 下 所 示 : 


open("/etc/nsswitch.conf", O RDONLY) = 3 // 打开 nsswitch.conf 文 件 

fstat (3, {st mode=S ;IFREG|0644, st_ size=1688, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/.. =0 

rma NU 4096, PROT READ|PROT WRITE, MAP ”PRIVRTE |MAP_ANONYMOUS, -1, 0) = 0x7fd2dac4a000 

read (3, "#\n# /etc/nsswitch.conf\n#\n# Rn ex"http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/..., 4096) = 1688 
read(3, "", 4096) =0 

close (3) =0 

munmap (0x7fd2dac4a000, 4096) =0 

open("/etc/host.conf", O RDONLY) =3 // 打开 host .conf 文 件 


fstat (3, {st mode=S ;IFREG|0644, st_ size=9, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/.. =0 
ma (NUT 4096, PROT READ| PROT | WRITE, MAP PRIVATE |MAP_ ANONYMOUS, -1, 0) = Ox7fd2dac4a000 


read(3, "multi on\n", 4096) = 本 
read(3, "", 4096) =0 
close (3) =0 

=0 


munmap (0x7fd2dac4a000, 4096) = 
futex (0x30d5d91384, FUTEX WAKE PRIVATE, 2147483647) =0 

open ("/etc/resolv.conf", © RDONLY) =3 // 打开 resolv.conf 文 件 

fstat (3, {st mode=S IFREG10644， st_size=194, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/.. =0 
mmap (NULL, 4096, PROT READ| PROT | WRITE, MAP PRIVATE |MAP ANONYMOUS, -1, 0) = 0x7fd2dac4a000 

read (3, "# Generated by Cobbler post scri"http://www.hzcourse. com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/. .。 4096) = 194 
read(3, "", 4096) =0 

close (3) 0 


我 们 再 向 上 翻 看 ， 观 察 程序 运行 初始 化 的 过 程 ， 代 码 如 下 所 示 。 


open("/etc/salt/minion id", O RDONLY) 


= -1 ENOENT (No such file or directory) 


uname ({sys="Linux", node="stationX.example.com", http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/...}) = 0 
3 


socket (PF_ NETLINK, SOCK RAW, 


0) = 


bind(3, {sa family=AF NETLINK, pid=0, groups=00000000}, 12) = 0 
getsockname (3, {sa family=AF NETLINK, pid=34099, groups=00000000}, [12]) = 0 

sendto(3, "\24\0\0V\0\26\0\1\3\1q\304U\0\0\0\0\0\0\0\0", 20, 0, {sa_ family=AF NETLINK, pid=0, groups=00000000}, 12) = 20 

recvmsg (3, {msg_name(12)={sa family=AF NETLINK, pid=0, groups=00000000}, msg_iov(1)=[{"0\0\0\0\24\0\2\0\1q\304U3\205\0\0\2\10\200\376\1\0\0\0\10\0\1\0\177\0\0\1"http://www.hzcc 


recvmsg (3, {msg name(12)= 
recvmsg (3, {msg_name(12)= 


close (3) 


Salt-Master 运 行 任何 salt 命 令 之 前 ,者 
义 ， 该 设置 项 的 默认 值 为 10 秒 ， 两 个 不 能 访问 的 DNS 各 


这 个 解决 问题 的 思路 很 巧妙 。 首 先 利 


sa family=AF NETLINK, pid=0, groups=00000000}, msg_iov(1)=[{"@\0\0\0\24\0\2\0\1q\304U3\205\0\0\n\200\200\376\1\0\0\0\24\0\1\0\0\0\0\0"http://www.hzcor 
sa family=AF NETLINK, pid=0, groups=00000000}, msg_iov(1)=[{"\24\0\0\0\3\0\2\0\1q\304U3\205\0\0\0\0\0\0\1\0\0\0\24\0\1\0\0\0\0\0"http://www.hzcourse.c 
=0 


会 先 取得 主机 的 信息 并 尝试 进行 名 称 解析 ， 因 为 /etc/resolv.conf 文 件 中 配置 了 不 可 访问 的 DNS Server， 而 且 在 resolv.conf 文 件 中 关于 超时 的 设置 没有 明确 定 


都 等 待 了 10 秒 钟 ， 最 终 引发 了 这 个 wait 时 间 长 达 20 多 秒 的 问题 。 删 除了 /etc/resolv.conf 中 的 错误 条 目 后 ， 故 障 立即 解除 。 


time 观 察 到 了 时 间 瓶 颈 ， 既 然 是 wait， 就 说 明 程序 在 这 段 时 间 除了 等 待 什么 都 没 干 。 而 strace 的 作用 就 是 把 程序 运行 时 的 细节 展示 到 前 台 上 来 ， 那 么 在 wait 时 段 


的 Debug 信 息 肯 定 也 是 停止 输出 的 ， 相 当 于 程序 自动 设置 了 一 个 断 点 。 我 们 第 一 次 操作 的 目的 是 取得 断 点 内 容 ， 第 二 次 操作 的 目的 是 为 了 拿 到 完整 的 Debug 信 息 。 最 后 根据 断 点 内 容 在 整个 Debug 信 息 中 找 


到 其 所 在 的 位 置 ， 该 断 点 位 置 附近 的 上 下 文中 一 定 


隐藏 着 真正 的 故障 原因 。 


当然 ， 最 后 我 们 还 要 提醒 一 下 负责 部 署 的 同事 ， 对 相关 问题 进行 同步 修改 。 


民生 仆 : 生 


想 要 做 好 基础 架构 的 工作 ， 除 了 要 掌握 应 有 的 技术 之 外 ， 我 认为 更 重要 的 是 以 下 几 点 : 


(1) 要 有 全 局 的 观念 ， 考 虑 问题 不 要 总 是 从 自我 利益 出 发 。 在 技术 的 选用 上 ， 只 关心 如 何 让 自己 的 工作 更 轻松 ， 却 不 管 别人 的 死活 。 不 要 坐 了 架构 的 位 置 ， 思 想 还 停留 在 工程 师 的 水 平 。 


(2) 要 注重 细节 ， 不 要 做 浮云 架构 ， 光 会 画 大 饼 是 不 成 的 。 做 任何 设计 一 定 要 考虑 能 否 落地 ? 自己 是 否 亲自 实践 过 ? 我 觉得 每 个 架构 师 都 应 该 背 着 自己 设计 的 降落 伞 至 少 跳 一 次 飞机 ， 而 不 是 用 别人 的 
生命 和 鲜血 去 验证 结果 。 


(3) 杜绝 无 底线 的 服务 意识 ， 实 际 业务 需求 和 整体 基础 架构 规范 应 当 和 谐 共存 ， 不 能 相互 绑架 。 


(4) 不 要 觉得 自己 了 不 起 ， 应 当 虚 心 并 且 不 断 地 学 习 ， 多 向 别人 讨教 ， 因 为 总 有 你 不 会 的 东西 ， 即 便 是 你 认为 再 简单 的 事情 。 


(5) 有 了 成 绩 要 多 分 享 不 要 舍不得 (超级 解 霸 作 者 梁 秘 新 的 话 ) 。 当 然 ， 请 一 定 要 分 享 干货 ， 也 就 是 有 细节 、 能 落地 、 经 得 起 验证 的 真 成 绩 。 


(6) 要 注意 技术 和 知识 的 灵活 运用 ，11.5 节 strace 命 令 的 使 用 就 是 一 个 好 例子 。 


(7) 要 有 一 个 可 靠 的 伙伴 ， 我 的 同事 张望 在 网 络 方面 给 予 了 我 很 多 支持 ， 他 是 这 方面 的 技术 专家 ， 能 够 快速 地 定位 并 解决 部 署 过 程 中 遇 到 的 各 种 奇 苑 故障 ， 而 且 还 是 一 个 很 帅气 的 小 伙 儿 。 


(8) 要 有 一 位 能 认可 你 的 能 力 、 支 持 你 的 想法 、 并 且 包 容 你 犯错 误 的 好 领导 ， 这 条 最 重要 。 


关于 服务 器 交付 的 事 儿 ， 我 们 就 聊 到 这 里 。 有 些 读者 可 能 会 觉得 SA 不 就 是 一 个 装机 器 的 么 ”但 基础 架构 无 小 事 ， 即 便 是 小 小 的 装机 ， 也 同样 严 苛 地 考验 着 一 个 SA 的 技术 水 平 。 要 知道 ， 安 装 部 署 和 服务 
配置 只 是 SA 的 基本 工作 ， 能 够 真正 地 深入 系统 核心 ， 透 析 系统 机 制 ， 胜 任 内 核 参 数 调整 、 故 障 快 速 定位 、 解 析 CoreDump 以 及 编写 内 核 代 码 的 工作 ， 才 是 SA 应 有 的 境界 和 高 度 。 


第 12 章 ”企业 级 Nginx Web 服 务 优化 实战 


作者 简介 


ea 


冉 宏 元 ( 老 男孩 ) ， 北 京 老 男孩 I 教育 创始 人 ， 拥 有 10 多 年 一 线 大 规模 网 站 集群 实战 运 维 架构 经 验 及 教学 培训 经 验 ， 经 历 并 主导 了 服务 器 从 几 台 到 近 千 台大 规模 集群 运 维 架构 的 发 展 过 程 ， 运 维 架构 
战 知识 体系 全 面 ， 擅 长 大 规模 集群 架构 部 署 调 优 、 虚 拟 化 、 云 计算 、 大 数据 及 MySQL 数 据 库 等 技术 ， 是 IT 界 最 资深 的 Linux 集 群 架构 实战 专家 之 一 。 


在 国内 同行 业 排名 第 一 ! 


HH 


国内 NLP 心理 学 运 维 思 想 体 系 创 始 人 ， 将 心理 学 运 维 思想 大 量 应 用 于 教学 培训 实践 ， 取 得 了 显著 效果 ， 所 教学 生平 均 就 业 工资 及 后 期 发 展 速度 连续 多 


12.1 Nginx 基 本 安全 优化 


12.1.1 ”调整 参数 隐藏 Nginx 软 件 版 本 号 信息 


一 般 来 说 ， 软 件 的 漏洞 都 和 版 本 有 关 ， 这 一 点 很 像 汽车 的 缺陷 ， 同 一 批 次 的 产品 要 有 问题 就 都 有 问题 ， 别 的 批 次 可 能 就 都 是 好 的 。 因 此 ， 我 们 应 尽量 隐藏 或 消除 Web 服 务 对 访问 用 户 显示 各 类 敏感 信息 
(例如 Web 软 件 名 称 及 版 本 号 等 信息 ) ， 这 样 恶意 的 用 户 就 很 难 猜 到 他 攻击 的 服务 器 所 用 的 是 否 有 特定 漏洞 的 软件 ， 或 者 是 否 有 对 应 漏洞 的 某 一 特定 版 本 ， 从 而 加 强 了 Web 服 务 的 安全 性 。 这 在 武侠 小 说 
里 ， 就 相当 于 隐身 术 ， 你 隐身 了 ， 对 手 就 很 难 打 着 你 了 。 


想 要 隐身 ， 首 先 要 了 解 所 使 用 软件 的 版 本 号 ， 对 于 Linux 客 户 端 ， 可 通过 命令 行 查看 Nginx 版 本 号 ， 最 简单 的 方法 就 是 在 Linux 客 户 端 系统 命令 行 执行 如 下 curl 命 令 : 


[root@oldboy ~]# curl -I 10.0.0.7 

HTTP/1.1 200 OK 

Server: nginx/1.6.3 村 == 这 里 很 清晰 地 暴露 了 Web 版 本 号 (1.6.3) 及 软件 名 称 (Nginx) 
Date: Thu, 09 Oct 2014 01:58:51 GMT 

Content-Type: text/html 

Content-Length: 18 

Last-Modified: Thu, 25 Sep 2014 20:01:01 GMT 

Connection: keep-alive 

ETag: "5424747d-12" 

Accept-Ranges: bytes 


在 Windows 客 户 端 上 ， 通 过 浏览 器 访问 Web 服 务 时 ， 若 找 不 到 页 面 ， 那 么 默认 的 报错 信息 如 图 12-1 所 示 : 


代 。 


以 上 旦 
例如 ， 下 面 是 百度 搜索 引擎 网 站 Web 软 件 的 更 名 做 法 : 


图 12-1 


找 不 到 对 应 地 址 的 错误 页 面 


然 是 不 同 的 客户 端 ， 但 是 都 获得 了 Nginx 软 件 名 称 ， 而 且 查 到 了 Nginx 的 版 本 号 ， 这 就 使 得 Nginx Web 服 务 的 安全 存在 一 定 的 风险 ， 


此 ， 应 隐藏 掉 这 些 敏 感 信息 或 


一 个 其 他 的 名 字 将 其 蔡 


root@oldboy ~]# curl -I baidu.com 
HTTP/1.1 200 OK 
Date: Tue, 21 Oct 2014 03:31:01 GMT 


和 版 本 就 无 所 谓 了 ) 


Server: Apache 村 一 将 Web 服 务 软 件 更 名 为 了 Apache， 并 且 版 本 号 也 去 掉 了 
root@oldboy ~]# curl -I -s www.baidu.com|grep Server 
Server: BWS/1.1 #<== 将 Web 服 务 软 件 更 名 为 了 BWS， 并 且 版 本 号 被 改 为 1 .1 ( 闭 源 的 软件 名 称 


有 实 上 ， 还 可 以 通过 配置 文件 加 参数 来 隐藏 Nginx 版 本 号 。 


编辑 nginx.conf 配 置 文件 增加 参数 ， 实 现 隐藏 Nginx 版 本 号 的 方式 如 下 。 


门户 网 站 尚且 如 此 ， 我 们 也 学 着 隐藏 或 改 掉 应 用 服务 的 软件 名 和 版 本 号 吧 ! 


在 Nginx 配 置 文件 nginx.conf 中 的 http 标 签 段 内 加 入 “server_tokens off; ”参数 ， 


体 如 下 : 


http 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teac 


server tokens off; 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/OEBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teac 


} 


此 参数 放置 在 http 标 签 内 ， 作 用 是 控制 http response header 内 的 Web 服 务 版 本 信息 的 显示 ， 以 及 错误 信息 中 Web 服 务 版 本 信息 的 显示 。 


server_tokens 参 数 的 官方 说 明 如 下 : 


syntax: server tokens on | off; #?<== 此 行为 参数 语法 ，on 为 开启 状态 ，off 为 关闭 状态 
情况 的 结果 


default: server tokens on; #3<== 此 行 的 意思 是 不 配置 该 参 数 ， 软 件 默 
context: http，server，location #?<== 此 行为 Server_tokens 参 数 可 以 放置 的 位 置 参 数 作 用 : 激活 或 禁止 Nginx 的 版 本 信息 显示 在 报错 信息 和 Server 的 响应 首部 位 置 中 


Enables or disables emitting of nginx version in error messages and in the "Server" response header field. 


#3?<== 此 行 是 参数 的 作用 原文 ， 一 定 要 细 看 


官方 资料 地 址 : http://nginx.org/en/docs/http/ngx_http_core_module.html。 


配置 完毕 后 保存 ， 重 新 加 载 配置 文件 ， 再 次 通过 curl 查 看 ， 结 果 如 下 : 


[root@oldboy conf]# /application/nginx/sbin/nginx -s reload 


[root@oldboy conf]# curl -I 10.0.0.7 

HTTP/1.1 200 OK 

Server: nginx #2<== 版 本 号 已 消失 
Date: Thu, 09 Oct 2014 02:03:32 GMT 

Content-Type: text/html 

Content-Length: 18 

Last-Modified: Thu, 25 Sep 2014 20:01:01 GMT 
Connection: keep-alive 

ETag: "5424747d-12" 

Accept-Ranges: bytes 


此 时 ， 浏 览 器 的 报错 提示 中 没有 了 版 本 号 ， 如 图 12-2 所 示 ， 修 改 成 功 。 


404 Not Found 


图 12-2 ”无 版 本 号 的 错误 页 面 显示 


12.2 ”根据 参数 优化 Nginx 服 务 性 能 


12.2.1 优化 Nginx 服 务 的 worker 进 程 个 数 


在 高 并 发 、 高 访问 量 的 Web 服 务 场景 中 ， 需 要 事先 启动 好 更 多 的 Nginx 进 程 ， 以 保证 快速 响应 并 处 理 大 量 并 发 用 户 的 请 求 。 

这 类 似 于 开饭 店 ， 在 营业 前 ， 需 要 事先 招聘 一 定数 量 的 服务 员 准 备 接待 顾客 ， 但 这 里 存在 一 个 问题 ， 如 果 饭 店 对 客流 量 没 有 一 个 正确 的 预 估 ， 那 么 就 会 导致 一 些 问题 发 生 ， 例 如 : 服务 员 招聘 过 多 ， 客 
流 却 很 少 ， 那 么 服务 员 可 能 就 会 很 闲 ， 没 事 干 ， 饭 店 的 成 本 也 高 了 ; 如果 客 流 很 大 ， 而 服务 员 人 数 少 了 ， 那 么 可 能 就 会 接待 不 过 来 顾客 ， 导 致 顾客 吃饭 体验 差 。 因 此 ， 饭 店 要 根据 客户 的 流量 及 并 发 量 来 调 
整 接待 的 服务 人 员 数 量 ， 然 后 根据 顾客 量变 化 的 监测 结果 及 时 调整 到 最 佳 的 配置 。 


Nginx 服 务 就 相当 于 饭店 ， 网 站 用 户 就 相当 于 顾客 ，Nginx 的 进程 就 相当 于 服务 员 ， 下 面 就 来 讲解 如 何 优化 Nginx 进 程 的 个 数 。 
1. 优 化 Nginx 进 程 对 应 的 配置 


优化 Nginx 进 程 对 应 Nginx 服 务 的 配置 参数 如 下 


Worker _ Processes 1; #<==- 指 定 了 Nginx 要 开启 的 进程 数 ， 结 尾 的 数字 就 是 进程 的 个 数 


worker_processes 1; #<== 指 定 了 Nginx 要 开启 的 进程 数 ， 结 尾 的 数字 就 是 进程 的 个 数 上 述 参数 调整 的 是 Nginx 服 务 的 worker 进 程 数 ，Nginx 有 Master 进 程 和 worker 进 程 之 分 ，Master 为 管理 进 
程 ， 真 正 接待 “顾客 ”的 是 worker 进 程 。 


2. 优 化 Nginx 进 程 个 数 的 策略 
前 面 已 经 讲解 过 ，worker_processes 参 数 大 小 的 设置 最 好 和 网 站 的 用 户 数 量 相关 联 ， 可 如 果 是 新 配置 ， 不 知道 网 站 的 用 户 数量 时 该 怎么 办 呢 ? 


搭建 服务 器 时 ，worker 进 程 数 最 开始 的 设置 可 以 等 于 CPU 的 核 数 ， 且 worker 进 程 数 要 多 一 些 ， 这 样 起 始 提供 服务 时 就 不 会 出 现 因 为 访问 量 快速 增加 而 需要 | 临时 启动 新 进程 提供 服务 的 问题 ， 缩 短 了 系 
统 的 瞬时 开销 和 提供 服务 的 时 间 ， 提 升 了 服务 用 户 的 速度 。 高 流量 高 并 发 场合 也 可 以 考虑 将 进程 数 提高 至 CPU 核 数 x2， 具 体 情况 要 根据 实际 的 业务 来 选择 ， 因 为 这 个 参数 除了 要 和 CPU 核 数 匹 配 之 外 ， 也 与 
硬盘 存储 的 数据 及 系统 的 负载 有 关 ， 设 置 为 CPU 的 核 数 是 一 个 好 的 起 始 配置 ， 这 也 是 官方 的 建议 。 


3. 查 看 Web 服 务 器 CPU 硬件 资源 信息 
下 面 介 绍 查看 Linux 服 务 器 CPU 总 核 数 的 方法 。 


通过 /proc/cpuinfo 可 查看 CPU 的 个 数 及 总 核 数 。 查 看 CPU 总 核 数 的 示例 如 下 : 


[oldboy@oldboy ~]$ grep processor /procVcpuinfolwc -1 
4 #<== 表 示 为 1 颗 CPU 四 核 

[root@oldboy ~]# grep -c processor /proc/cpuinfo 

4 #< 一 表示 为 1 颗 CPU 四 核 


查看 CPU 总 颗 数 的 示例 如 下 : 


[oldboy@oldboy ~]$ grep 'physical id' /proc/cpuinfol|sort|uniq|lwc -1 
1 #<== 对 physical id 去 重 计数 ， 表 示 1 晒 CPU 


通过 执行 top 命 令 ， 然 后 按 数 字 1， 即 可 显示 所 有 的 CPU 核 数 ， 代 码 如 下 : 


[root@oldboy-server ~]# top < 按 1 显 示 多 核 cpu 
top -~ 11:31:10 up 608 days, 16:04, 2 users, load average: 0.00, 0.00, 0.00 
Tasks: 121 total, 1 running, 114 sleeping, 6 stopped, 0 zombie 


Cpu0 : 0.2%us, 0.1l%sy, 0.0%ni, 99.2%id, 0.5%wa, 0.0%hi, 0.0%si, 0.0%st 
Cpul : 0.1l%us, 0.0%sy, 0.0%ni, 99.5%id, 0.3%wa, 0.0%hi, 0.0%si, 0.0%st 
Cpu2 : 0.2%us, 0.1l%sy, 0.0%ni, 99.4%id, 0.3%wa, 0.0%hi, 0.0%si, 0.0%st 
Cpu3 : 0.2%us, 0.1l%sy, 0.0%ni, 99.4%id, 0.3%wa, 0.0%hi, 0.0%si, 0.0%st 
Mem: 8173172k total, 8126340k used, 46832k free, 419508k buffers 
Swap: 4192956k total, 156k used, 4192800k free, 6681084k cached 
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
1 root 15 0 10368 680 572S 0.0 0.0 0:01.94 init 
2 root RE -5 0 0 0S 0.0 0.0 0:02.48 migration/0 


#<== 这 是 单 CPU 四 核 的 信息 例如 : CPU 核 数 为 4， 就 配置 worker_Processes 4 


4 .实践 修改 Nginx 配 置 


假设 服务 器 的 CPU 颗 数 为 1 颗 ， 核 数 为 4 核 ， 则 初始 的 配置 可 通过 查看 默认 的 nginx.conf 里 的 worker_processes 数 来 了 解 ， 命 令 如 下 : 


[root@oldboy conf]# grep worker processes nginx.conf 
worker processes 1; 


这 里 修改 参数 值 为 CPU 的 总 核 数 4， 然 


重新 加 载 Nginx 服 务 。 


修改 配置 的 方法 如 下 : 


[root@oldboy conf]# sed -i 's#worker processes 1l#worker processes 4#g' nginx.conf 
[root@oldboy conf]# grep worker processes nginx.conf 
Worker Processes 4; 提 示 : 可 以 通过 Vi 修改 


优雅 重启 Nginx， 使 修改 生效 ， 代 码 如 下 : 


[root@oldboy ~]# /application/nginx/sbin/nginx -t 

nginx: the configuration file /application/nginxl1.6.3/conf/nginx.conf syntax is ok 
nginx: configuration file /application/nginxl1.6.3/conf/nginx.conf test is successful 
[root@oldboy ~]# /application/nginx/sbin/nginx -s reload 


现在 检查 修改 后 的 worker 进 程 数 量 ， 代 码 如 下 : 


[root@oldboy ~]# ps -eflgrep nginx|grep -v grep 


root 1428 1 UNIS6F 00:00:00 nginx: master process /application/nginx/sbin/nginx 
nginx 1832 1428 0 10:24 ? 00:00:00 nginx: worker process 
nginx 1833 1428 0 10:24 ? 00:00:00 nginx: worker process 
nginx 1834 1428 0 10:24 ? 00:00:00 nginx: worker process 
nginx 1835 1428 0 10:24 ? 00:00:00 nginx: worker process 


从 “worker_processes 4” 可 知 ，worker 的 进程 数 为 4 个 。Nginx Master 主 进程 不 包含 在 这 个 参数 内 ，Nginx Master 的 主 进程 为 管理 进程 ， 负 责 调度 和 管理 worker 进 程 。 


有 关 worker_processes 参 数 的 官方 说 明 如 下 : 


syntax: worker_processes number; #< 一 此 行为 参数 语法 ，number 为 数量 
default: worker processes 1; #< 一 此 行 的 意思 是 不 配置 该 参数 ， 软 件 默认 情况 下 数量 为 1 
Context: main #<== 此 行为 worker_processes 参 数 可 以 放置 的 位 置 


WOrker_processes 为 定义 Worker 进 程 数 的 数量 ， 建 议 设置 为 CPU 的 核 数 或 CPU 核 数 x2， 具 体 情 况 要 根据 实际 的 业务 来 选择 ， 因 为 这 个 参数 ， 除 了 要 和 CPU 核 数 匹 配 之 外 ， 还 与 硬盘 存储 的 数据 及 系统 的 负载 有 关 ， 设 置 为 CPU 的 个 数 


From : http://nginx.org/en/docs/ngx_ core module.html 


12.3 Nginx 日 志 相关 的 优化 与 安全 


12.3.1 编写 脚本 实现 Nginx access 日 志 轮 询 


当 用 户 请 求 一 个 软件 时 ， 绝 大 多 数 软件 都 会 记录 用 户 的 访问 情况 ，Nginx 服 务 也 不 例外 。Nginx 软 件 目前 还 没有 类 似 Apache 的 通过 cronolog 或 rotatelog 对 日 志 进行 分 割 处 理 的 功能 ， 但 是 ， 运 维 人 员 
可 以 利用 脚本 开发 、Nginx 的 信和 号 控制 功能 或 reload 重 新 加 载 ， 来 实现 日 志 的 自动 切割 、 轮 询 。 


详细 操作 过 程 如 下 。 


(1) 配置 日 志 切 割 脚本 ， 命 令 如 下 : 


[root@oldboy ~]# mkdir /server/scripts/ -p 

[root@oldboy ~]# cd /server/scripts/ 

[root@oldboy scripts]# vim cut nginx log.sh 

cd /application/nginx/logs &&N 

/bin/mv www_access.1og www access $ (date +%F -d -lday) .1og #<== 将 日 志 按 日 期 改 成 前 一 天 的 名 称 

/application/nginx/sbin/nginx -s reload #<== 重 新 加 载 nginx 使 得 触发 重新 生成 访问 日 志文 件 提示 : 实际 上 脚本 的 功能 很 简单 ， 就 是 改 日 志 名 ， 然 后 加 载 Nginx， 重 新 生成 文件 记录 日 志 


(2) 将 这 段 脚本 保存 后 加 入 到 服务 器 端的 定时 任务 配置 里 ， 使 得 此 脚本 在 每 天 的 凌晨 0 点 执行 ， 就 可 以 实现 日 志 每 天 的 分 割 功能 了 ， 操 作 结 果 如 下 : 


[root@oldboy scripts]# crontab -e #<== 打 开 编 辑 功能 后 ， 加 入 如 下 内 容 
#cut nginx access 1og by oldboy at 201409 
00 00 * * * /bin/sh /server/scripts/cut nginx 1og.sh >/dev/null 2>&1 


此 处 的 意思 是 每 天 凌晨 0 点 执行 后 面 的 /server/scripts/cut_nginx_log.sh 脚 本 ，>/dev/null 2> &1 表 示 任 何 输出 都 不 要 。 这 个 是 Linux 的 基础 服务 之 一 ， 具 体 请 参考 相关 资料 。 


最 终 切 割 后 的 日 志 效果 如 下 : 

[root@oldboy scripts]# 11 Ua at a 用 量 27752 
—rw-r--r--. 1 root root 20241716 10 月 12:03 access.1og 

-IW-I--r--,. 1 root root 27428 10 月 i 04:22 error.log 

~—rWw-r--r--. 1 root root 5 10 月 9 09:56 nginx.pid 

-WI 1 root root 264 9 月 26 05:08 www 1_access 2014-09-25.1log 
-WI 1 root root 0 9 月 26 05:12 www access 2014-09-26. ie 
-Pwr-——r-=, 1 root root 0 9 月 28 00:00 www access 2014- 09-27.1og 
一 2 一 人 ~ 一。 root root 48717 9 月 28 03:11 www_access 2014-09-28.1og 
—rw-r--r--. 1 root root 8072741 10 月 9 17:25 www raccess 2014- 10-09. Tg 
说 明 


这 里 是 按照 不 同 的 日 期 生成 日 志 。 


12.4 ”Nginx 站 点 目录 及 文件 URL 访 问 控制 


12.4.1 ”根据 扩展 名 限制 程序 和 文件 访问 


Web 2.0 时 代 ， 绝 大 多 数 网 站 都 是 以 用 户 为 中 心 的 ， 例 如 : bbs、blog、sns 产 品 ， 这 几 个 产品 都 有 一 个 共同 特点 ， 那 就 是 不 但 允许 用 户 发 布 内 容 到 服务 器 ， 还 允许 用 户 发 图 片 甚至 上 传 附件 到 服务 器 
上 ， 由 于 为 用 户 开 通 了 上 传 的 功能 ， 因 此 给 服务 器 带 来 了 很 大 的 安全 风险 。 虽 然 很 多 程序 在 上 传 前 会 对 文件 做 一 定 的 控制 ， 例 如 : 文件 大 小 、 类 型 等 ， 但 是 ， 一 不 小 心 就 会 被 黑客 钼 了 空子 ， 上 传 了 木马 程 


下 面 将 利用 Nginx 配 置 禁止 访问 上 传 资源 目录 下 的 PHP、Shell、Perl、Python 程 序 文件 ， 这 样 用 户 即使 上 传 了 木马 文件 也 没 法 执行 ， 从 而 加 强 了 网 站 的 安全 。 


范例 1: 配置 Nginx， 禁 止 解析 指定 目录 下 的 指定 程序 。 


location ~ ^/images/.*\. (php|lphp5|sh|pllpy)$ 
deny all; 

jo /static/.*\. (phplphp5|sh|pllpy)$ 
deny all; 

location ~ ^/data/ (attachment |avatar)/.*\. (phplphp5)$ 


deny all; 


对 上 述 目录 的 限制 必须 写 在 Nginx 处 理 PHP 服 务 配置 的 前 面 ， 如 下 : 


location ~ .*\. (phplphp5)?$ 
{ 


fastcgi pass 127.0.0.1:9000; 
fastcgi index index.php; 
include fcgi.conf; 

} 


范例 2: Nginx 下 配置 禁止 访问 *.txt 和 *.doc 文 件 。 


实际 配置 信息 如 下 : 


location ~* \. (txt|doc)$ { 
if (-f $request filename) { 
root /data/www/www; 
#rewrite :http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/OEBPS/Text/. .可 以 重 定向 到 某 个 URL 
break; 
} 


} 

location ~* \. (txt|doc) ${ 
root /data/www/www; 
denyall; 

} 


12.5 Nginx 图 片 及 目录 防盗 链 解决 方案 


1. 什 么 是 资源 盗 链 


简单 地 说 ， 就 是 某 些 不 法 网 站 未 经 许可 ， 通 过 在 其 自身 网 站 程序 里 非法 调用 其 他 网 站 的 资源 ， 然 后 在 自己 的 网 站 上 显示 这 些 调用 的 资源 ， 达 到 填充 自身 网 站 的 效果 。 这 一 举动 不 仅 浪 费 了 调用 资源 网 站 
的 网 络 流量 ， 还 造成 其 他 网 站 的 带宽 及 服务 压力 吃紧 ， 甚 至 宕 机 。 


下 面 通过 示意 图 阐述 资源 盗 链 的 原理 ， 如 图 12-11 所 示 。 
2. 网 站 资源 被 资 链 带 来 的 问题 


若 网 站 图 片 及 相关 资源 被 盗 链 ， 最 直接 的 影响 就 是 网 络 带宽 占用 加 大 了 ， 带 宽 费 用 多 了 ， 网 络 流量 也 可 能 忽 高 忽 低 ，Nagios/Zabbix 等 报警 服务 频繁 报警 ， 类 似 图 12-12 所 示 。 


最 严重 的 情况 就 是 网 站 的 资源 被 非法 使 用 ， 使 网 站 带宽 成 本 加 大 和 服务 器 压力 加 大 ， 这 有 可 能 会 导致 数 万 元 的 损失 ， 且 网 站 的 正常 用 户 访问 也 会 受到 影响 。 
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图 12-11 资源 盗 链 原理 的 详细 示意 
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图 12-12 因 盗 链 导 致 的 流量 飙升 图 


3. 企 业 真实 案例 : 网 站 资源 被 咨 链 ， 出 现 严 重 问题 


某 日 ， 我 接 到 从 事 运 维 工作 的 朋友 的 紧急 求助 ， 其 公司 的 CDN 源 站 的 流量 没有 变动 ， 但 CDN 加 速 那 边 的 流量 无 故 超出 了 好 几 个 GB， 不 知道 该 怎么 处 理 。 


该 故障 的 影响 : 由 于 是 购买 的 CDN 网 站 加 速 服务 ， 因 此 虽然 流量 多 了 几 个 GB， 但 是 业务 未 受 影响 。 只 是 ， 这 么 大 的 异常 流量 ， 持 续 下 去 可 直接 导致 公司 无 故 损失 数 万 元 。 解 决 这 个 问题 可 体现 运 维 的 价 
值 。 


那么 该 如 何 及 时 发 现 ， 又 如 何 处 理 这 样 的 问题 呢 ? 
本 节 先 给 大 家 讲述 几 个 发 现 问题 的 方法 ， 如 何 处 理 资 链 ， 后 文 会 详细 讲解 。 


第 一 ， 对 IDC 及 CDN 带 宽 做 监控 报警 。 


第 二 ， 作 为 高 级 运 维 或 运 维 经 理 ， 每 天 上 班 的 重要 任务 ， 就 是 经 常 查看 网 站 流量 图 ， 关 注 流 量变 化 ， 关 注 异 常 流量 。 


， 对 访问 日 志 做 分 析 ， 迅 速 定位 异常 流量 ， 并 且 和 公司 市 场 推广 等 保持 较 好 的 沟通 ， 以 便 调 度 带宽 和 服务 器 资源 ， 确 保 网 站 正常 的 访问 体验 。 


识 
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更 多 企业 案例 及 实战 解决 方案 请 参见 : http://oldboy.blog.51cto.com/2561410/909696。 
4 常见 防盗 链 解决 方案 的 基本 原理 


1) 根据 HTTP referer 实 现 防盗 链 


在 HTTP 协 议 中 ， 有 一 个 表 头 字段 叫 referer， 可 使 用 URL 格 式 来 表示 是 哪里 的 链接 用 了 当前 网 页 的 资源 。 通 过 referer 可 以 检测 访问 的 来 源 网 页 ， 如 果 是 资源 文件 ， 可 以 跟踪 到 显示 它 的 网 页 地 址 ， 一 旦 
检测 出 来 源 不 是 本 站 ， 马 上 进行 阻止 或 返回 指定 的 页 面 。 


HTTP referer 是 header 的 一 部 分 ， 当 浏览 器 向 Web 服 务 器 发 送 请 求 时 ， 一 般 会 带 上 referer， 告 诉 服务 器 我 是 从 哪个 页 面 链接 过 来 的 ， 服 务 器 借 此 获得 一 些 信息 用 于 处 理 。Apache、Nginx、Lighttpd 
三 者 都 支持 根据 HTTP referer 实 现 防盗 链 ，referer 是 目前 网 站 图 片 、 附 件 、html 等 最 常用 的 防盗 链 手 段 。 图 12-13 是 referer 防 盗 链 的 基本 原理 图 。 
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图 12-13 ”通过 referet 解 决 盗 链 问题 的 基本 原理 图 


2) 根据 Cookie 防 盗 链 


对 于 一 些 特殊 的 业务 数据 ， 例 如 流 媒 体 应 用 通过 ActiveX 显 示 的 内 容 (例如 ，Flash、Windows Media 视 频 、 流 媒体 的 RTSP 协 议 等 ) ， 因 为 它们 不 向 服务 器 提供 referer header， 所 以 若 采用 上 述 的 
referer 防 盗 链 手段 ， 将 会 达 不 到 想 要 的 效果 。 


对 于 Flash、Windows Media 视 频 这 种 占用 流量 较 大 的 业务 数据 ， 防 资 链 是 比较 困难 的 ， 此 时 可 以 采用 Cookie 技 术 ， 解 决 Flash、Windows Media 视 频 等 的 防盗 链 问题 。 


例如 : ActiveX 插 件 不 传递 referer， 但 会 传递 Cookie， 可 以 在 显示 ActiveX 的 页 面 的 <head> </head> 标 签 内 嵌入 一 段 JavaScript 代 码 ,设置 “Cookie: Cache=av”， 代码 如 下 : 


<script> document .cookie="Cache=av; domain=domain.com;path=/"; </script> 


然后 就 可 以 通过 各 种 手段 来 判断 这 个 Cookie 是 否 存在 ， 以 及 验证 其 值 的 操作 了 。 


根据 Cookie 来 防盗 链 的 技术 并 非 本 章 所 要 讲 的 内 容 ， 读 者 了 解 一 下 即 可 ， 如 果 企业 确实 有 需要 ， 可 以 阅读 其 他 书籍 或 进入 交流 群 以 获取 这 部 分 的 知识 。 
3) 通过 加 密 变换 访问 路 径 以 实现 防盗 链 


此 种 方法 比较 适合 视频 及 下 载 类 业务 数据 的 网 站 。 例 如 : Lighttpd 有 类 似 的 插件 mod_secdownload 来 实现 此 功能 。 先 在 服务 器 端 配置 此 模块 ， 设 置 一 个 固定 的 用 于 加 密 的 字符 串 ， 比 如 oldboy， 然 后 
设置 一 个 ur 前 缀 ， 比 如 /mp4/， 再 设置 一 个 过 期 时 间 ， 比 如 1 小 时 ， 然 后 写 一 段 PHP 代 码 ， 利 用 加 密 字符 串 和 系统 时 间 等 通过 md5 算 法 生成 一 个 加 密 字符 串 。 最 终 获取 到 的 文件 的 URL 链 接 中 会 带 有 一 个 时 
间 惟 和 一 个 加 密 字符 的 md5 数 值 ， 在 访问 时 系统 会 对 这 两 个 数据 进行 验证 。 如 果 时 间 不 在 预期 的 时 间 段 内 (如 1 小 时 内 ) 则 失效 ; 如果 时 间 戳 符合 条 件 ， 但 是 加 密 的 字符 串 不 符合 条 件 也 会 失效 ， 从 而 达到 
防盗 链 的 效果 。 


PHP 代 码 实例 如 下 : 
<?php 
$secret = "oldboy"; // 加 密 字符 串 ， 必 须 和 1Lighttpd.conf 里 的 保持 一 致 


Suri prefix = "/mp4/"; // 虚拟 的 路 径 、 前 级， 必须 和 Tighttpd.conf 里 的 保持 一 致 
$file = "/test.mp4"7 // 实际 文件 名 ， 必 须 加 "/" ( 斜 杠 ) 

Stimestamp = time () 7 // current timestamp 

$t hex = sprintf("%08x", $timestamp); 

$m = md5 ($secret. $file.$t hex); 

printf('%s', $uri prefix, $m, $t hex, $file, $file); // 生 成 Url 地址 囊 
> 


根据 Lighttpd 的 插件 mod_secdownload 来 进行 防盗 链 的 技术 并 非 本 章 所 要 讲 的 内 容 ， 读 者 了 解 一 下 即 可 ， 如 果 企 业 确 实 有 和 需要， 可 以 阅读 其 他 书籍 ， 或 者 进入 交流 群 以 获取 这 部 分 的 知识 。 
5.Nginx Web 服 务实 现 防盗 链 实战 
在 默认 情况 下 ， 只 需要 进行 简单 的 配置 ， 即 可 实现 防盗 链 处 理 。 请 看 下 面 的 实例 。 


1) 利用 referer， 并 且 针 对 扩展 名 rewrite 重 定向 


下 面 的 代码 为 利用 referer 且 针对 扩展 名 rewrite 重 定向 ， 即 实现 防盗 链 的 Nginx 配 置 : 


location ~* \. (jpglgif|png|swf|flv|wmalwmv|asflmp3|mmf|ziplrar)$ { 
valid referers none blocked *.etiantian.org etiantian.org; 
if ($invalid referer) { 


rewrite ^/ http://www.etiantian.org/img/nolink.jpg; 


提示 


要 根据 自己 公司 的 实际 业务 (是 否 有 外 链 的 合作 ) ， 进 行 域名 设置 。 


[root@oldboy bbs]# cat /application/nginx/conf/extra/www.conf 


设置 expires 的 方法 如 下 : 
server { 
listen 80; 


server name www.etiantian.org; 


root html/www; 


index index.html index.htm; 
access log logs/www access.10g main; 
#Preventing hot linking of images and other file types 
location ~* ^.+\. (gifljpglPnglswflflvlrarlzip)$ { 
Valid referers none blocked server names *.etiantian.org etiantian.org; 


if ($invalid referer) { 


rewrite ”/ http://bbs.etiantian.com/img/nolink.jpg; 


} 

access log off; 
root html/www; 
expires 1d; 
break; 


2) 利用 referer， 并 且 针 对 站 点 目录 过 滤 返 回 错误 码 


针对 目录 的 方法 如 下 : 


location /images { 
root /data0/www/www; 


Valid referers none blocked *.etiantian.org etiantian.org; 


if ($invalid referer){ 
return 403; 
} 
i 


在 上 面 这 段 防 资 链 设置 中 ， 分 别针 对 不 同 的 文件 类 型 和 不 同 的 目录 进行 了 设置 ， 读 者 可 以 根据 自己 的 需求 进行 类 似 设 定 。 下 面 是 上 述 代码 的 说 明 : 


“jpglgflpng|swflfv|wmalwmvlasflmp3|mmflzip|ratf” 表 示 对 以 .jpg、.gf、.png、.Swf、.fv、.wma、.wmv、.asf、.mp3、.mmf、.zip 和 .rat 为 后 缀 的 文件 实行 防盗 链 处 理 。 


“*#.etiantian.otg etiantian.org” 表 示 这 个 请 求 可 以 正常 访问 上 面 指定 的 文件 资源 。 


“if{} 中 内 容 的 意思 是 如 果 地 址 不 是 上 面 指定 的 地 址 就 跳 转 到 通过 rewtite 指 定 的 地 址 ， 也 可 以 直接 通过 returm 返 回 403 错 误 。 


“ return 403 为 自 定义 的 http 返 回 状态 码 。 


“rewtite^/http://www.etiantian.org/img/nolink.jpg; ”表示 显示 一 张 防盗 链 图 片 。 


“access_log off; ”表示 不 记录 访问 日 志 ， 减 轻 压 力 。 


“ expires 3d 指 的 是 对 所 有 文件 设置 3 天 的 浏览 器 缓存 。 


6.NginxHttpAccessKeyModule 实 现 防盗 链 介 绍 


如 果 不 怕 麻烦 ， 有 条 件 实 现 的 话 ， 推 荐 使 


NginxHttpAccessKeyModule。 


其 运行 方式 是 : 如 果 download 目 录 下 有 一 个 file.zip 的 文件 。 对 应 的 URl 是 http://www.abc.com/download/file.zip, 使 
了 http://www.abc.com/download/file.zip?key=09093abeac094， 只 有 正确 地 给 定 了 key 值 ， 才 能 下 载 download 目 录 下 的 fi 


现在 NginxHttpAccessKeyModule 连 迅雷 都 可 以 防 了 ， 读 者 可 以 尝试 一 下 。 


7. 在 产品 设计 上 解决 资 链 方 案 


ngx_http_accesskey_module 模 块 后 就 成 


e.zip， 而 且 key 值 是 与 用 户 的 IP 相 关 的 ， 这 样 就 可 以 避免 被 资 链 了 。 折 


产品 在 设计 时 ， 处 理 资 链 问题 可 以 将 计 就 计 ， 为 网 站 上 传 的 图 片 增加 水 印 。 例 如 ,图 12-14 就 是 为 网 站 上 传 的 图 片 增加 的 水 印 。 


居 


剖 ， 


Lp 


图 12-14 ”网 站 被 盗 链 后 的 提示 图 片 示例 


为 图 片 添加 版 权 水 印 是 很 有 效 的 方法 。 网 站 直接 转载 图 片 一 般 是 为 了 快捷 ， 但 是 对 于 有 水 印 的 图 片 ， 很 多 站 长 是 不 愿意 转载 的 。 


8.Nginx 防 咨 链 花絮 
下 面 实战 模拟 演示 盗 链 。 


(1) 假定 blog.etiantian.com 是 非法 资 链 的 网 站 域名 ， 先 编写 如 下 的 oldboy.htm| 程 序 : 


<html> 

<head> 

<title> 老 男孩 教育 

</title> 

</head> 

<body bgcolor=green> 老 男孩 的 博客 ! <br> 我 的 博客 是 <a href="http://oldboy.blog.51lcto.com" target="_blank"> 博 客 地 址 </a> 
<img src="http://www.etiantian.org/stu.jpg"> 

</body> 

</html> 


这 个 非法 盗 链 的 访问 地 址 是 http://blog.etiantian.com/oldboy.html， 网 站 里 会 加 载 vww.etiantian.org 网 站 的 图 片 stujpg， 即 盗用 该 网 站 图 片 并 消耗 了 www.etiantian.org 正 常 网 站 的 带宽 。 


(2) 假定 我 们 维护 的 网 站 为 vww.etiantian.org， 设 定 一 张 存在 的 图 片 的 地 址 为 www.etiantian.org/stu.jpg， 此 时 发 现 被 blog.etiantian.com 资 链 了 。 通 过 查看 流量 ， 分 析 日 志 查 看 referfer， 就 可 以 
看 到 被 盗 链 的 具体 情况 。 


下 面 是 查看 Web 用 户 的 http_referer 的 实战 演示 。 


Nginx 日 志 格 式 为 www.etiantian.org， 其 内 容 如 下 : 


log format main '$remote addr - $remote User [$time local] "$request" ' 
'$status $body bytes sent "$http referer™" ' 
'"$http user agent" "$http x forwarded for"'; 


当 资 链 的 网 站 blog.etiantian.com 访 问 我 们 的 站 点 时 ， 记 录 的 日 志 如 下 : 


[root@nginx conf]# tail -f http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16011/OEBPS/Text/../logs/www access.1og 
10.0.0.125 - - [10/Mar/2015:19:34:15 +0800] "GET /stu.jpg HTTP/1.1" 200 68080 "http://blog.etiantian.com/oldboy.html" "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/201001 


我 们 自己 正常 访问 用 户 网 站 时 ， 站 点 记录 的 日 志 如 下 : 


10.0.0.125 - - [10/Mar/2015:19:37:45 +0800] "GET /img/nolink.jpg HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.C 


对 比 可 知 ， 资 链 的 网 站 多 出 了 一 个 http_referer 的 信息 ， 即 “http://blog.etiantian.com/oldboy.html”， 表 示 使 用 我 们 网 站 资源 的 用 户 来 自 于 该 网 站 ， 也 就 是 该 站 点 资 链 了 网 站 www.etiantian.org 资 
源 。 


可 在 www.etiantian.org 网 站 下 设置 防盗 链 ，Nginx 的 方法 如 下 : 


#Preventing hot linking of images and other file types 
location ~* ^.+\. (jpglpng|swf|flv|rar|zip)$ { 
valid referers none blocked *.etiantian.org etiantian.org; 
if ($invalid referer) { 
rewrite “/ http://bbs.etiantian.org/img/nolink.gif; 


} 
root html/www; 


提示 


如 果 referers 不 是 “*.etiantian.org etiantian.org; ”， 给 它 一 个 http://bbs.etiantian.org/img/nolink.gif。 


此 外 ， 给 盗 链 网 站 显示 的 


片 域名 不 要 和 被 盗 链 的 网 站 域名 一 样 。 也 就 是 http://bbs.etiantian.org/img/nolink.gif 里 面 的 bbs.etiantian.org 不 能 是 www.etiantian.org。 


(3) 单独 搭建 一 个 虚拟 机 主机 bbs.etiantian.org， 指 定 资 链 后 展示 的 图 片 为 http://bbs.etiantian.org/img/nolink.gif。 


上 面 演示 的 盗 链 操作 步骤 汇总 如 下 : 


(1) 将 www.etiantian.org/stu.jpg 指 定 被 资 链 的 图 片 地 址 。 


(2) 将 http://bbs.etiantian.org/img/nolink.gif 指 定 资 链 后 展示 的 图 片 。 


(3) 输入 非法 盗 链 网 站 提供 给 用 户 的 URL， 为 http://blog.etiantian.com/oldboy.html。 


在 没有 设置 资 链 之 前 ， 显 示 www.etiantian.org/stu.jpg， 设 置 资 链 之 后 ， 显 示 http://bbs.etiantian.org/img/nolink.gif 对 应 的 图 片 ， 但 地 址 还 是 资 链 的 地 址 。 


12.6 ”Nginx 错 误 页 面 的 优雅 显示 


12.6.1 ”生产 环境 中 常见 的 HTTP 状 态 码 列表 


企业 生产 环境 中 常见 的 HTTP 状 态 码 列表 如 表 12-2 所 示 。 


表 12-2 


状态 代码 及 英文 描述 
200 - OK 
- Standard response for Successful HTTP requests. 


301 - Moved Permanently 
- This and all future requests should be directed to the given. 


403 - Forbidden 

- forbidden request (matches a deny filter) => HTTP 403 

- The request was a legal request, but the server 1s refusing to 
respond to it. 

404 - Not Found 

- The requested resource could not be found but may be 
available again in the future. 

$500 - Internal Server Error 

- internal error in haproxy => HTTP 500 

- A generic error message, given when no more specific 
message 1s suitable. 

502 - 

- the server returned an invalid or incomplete response => 
HTTP 502 


- The server was acting as a gateway or proxy and received an 


Bad Gateway 


invalid response from the upstream server. 

$503 - Service Unavailable 

- no server was available to handle the request => HTTP 503 

- The server is currently unavailable (because it ls overloaded 
or down for maintenance). 

504 - Gateway Timeout 

- the server failed to reply in time => HTTP 504 

- The server was acting as a gateway or proxy and did not 
receive a timely response from the upstream server. 


参考 资料 请 见 http://oldboy.blog.51cto.com/2561410/716294。 


常见 的 HTTP 状 态 码 列表 


代码 描述 
服务 需 成 功 返 回 网 页 ， 这 是 成 功 的 HITTP 请 求 返 
回 的 标准 状态 码 
永久 跳 转 ， 所 有 请 求 的 网 页 将 永久 跳 转 到 被 设 
定 的 新 位 置 ， 例 如 : 从 etiantian.org 跳 转 到 www. 


etiantian.org 


禁止 访问 ， 这 个 请 求 是 合法 的 ,但 是 服务 器 端 因 
为 匹配 了 预先 设置 的 规则 而 拒绝 响应 客户 端的 请 求 ， 
此 类 问题 一 般 为 服务 需 权 限 配置 不 当 所 至 


服务 器 找 不 到 客户 端 请 求 的 指定 页 面 ， 可 能 是 客 
户 端 请 求 了 服务 器 不 存在 的 资源 所 导致 的 


内 部 服务 器 错误 ， 服 务 器 遇 到 了 
不 能 完成 客户 的 请 求 。 这 是 一 
一 般 为 服务 器 的 设置 或 内 部 程序 


意料 之 外 的 情况 ， 
个 较为 笼统 的 报错 ， 
问题 所 致 


坏 的 网 关 ， 一般 是 代理 服务 器 请 求 后 
端 服务 不 可 用 或 没有 完成 响应 网 关 服 务 咒 。 
理 服务 顺 下 面 的 节点 出 了 问题 所 致 


端 服务 时 ， 后 
一 般 为 代 


服务 当前 不 可 用 ， 可 能 为 服务 天 超载 或 停机 维护 
所 致 ， 或 者 是 代理 服务 天 后 面 没有 可 以 提供 服务 的 
节点 


网 关 超时 ， 一 般 是 网 关 代理 服务 器 请 求 后 端 服务 
时 ， 后 端 服务 没有 在 特定 的 时 间 内 完成 处 理 请 求 ， 
一 般 为 服务 顺 过 载 所 致 ， 没 有 在 指定 的 时 间 内 返回 
数据 给 代理 服务 咒 


12.7 ”Nginx 站 点 目录 文件 及 目录 权限 优化 


1. 单 机 LNMP 环 境 目 录 权 限 严 格 控制 措施 


为 了 保证 网 站 不 遭受 木马 入 侵 ， 所 有 站 点 目录 的 用 户 和 组 都 应 该 为 root， 所 有 的 目录 权限 都 是 755; 所 有 的 文件 权限 都 是 644。 设 置 如 下 : 


[root@www ~]# 1s -1 /var/html/blog/|tail -5 

-rw-r--r-- 1 root root 7712 5 月 2 2012 wp-mail.php 
-IrWw-r--r-- 1 root root 9916 4 月 27 2012 wp-settings.php 
-rwW-r--r-- 1 root root 18299 4 月 21 2012 wp-signup.php 
-rw-r--r-- 1 root root 3700 1 月 9 2012 wp-trackback.php 
~—rWw-r--r-- 1 root root 2788 2 月 17 2012 xmlrpc.php 


以 上 的 权限 设置 可 以 防止 黑客 上 传 木马 ， 以 及 修改 站 点 文件 ， 但 是 ,合理 的 网 站 用 户 上 传 的 内 容 也 会 被 拒 之 门 外 。 那 么 如 何 让 合法 的 用 户 可 以 上 传 文件 ， 而 又 不 至 于 被 黑客 利用 攻击 呢 ? 


如 果 是 单机 的 LNMP 环 境 ， 那 么 站 点 目录 和 文件 属性 的 设置 如 下 。 


先 把 所 有 的 目录 权限 设置 为 755， 所 有 的 文件 权限 设置 为 644， 所 用 目录 和 文件 的 用 户 和 组 都 是 root; 然后 把 用 户 上 传 资源 的 目录 权限 设置 为 755， 将 用 户 和 组 设置 为 Nginx 服 务 的 用 户 ; 最 后 针对 上 传 
资源 的 目录 做 资源 访问 限制 (前 文 已 述 ) 。 


部 分 公司 所 采用 的 授权 方式 不 是 很 安全 ， 常 见 的 有 如 下 两 种 : 


* chmod-R 777/sitedir 


* chown-R nginx.nginx/sitedir 


上 述 两 种 授权 方法 虽然 不 能 说 是 错误 的 ， 但 是 没有 做 到 授权 最 小 化 ， 会 给 网 站 带 来 非常 大 的 安全 隐患 ， 特 别 是 木马 入 侵 的 时 候 。 


在 比较 好 的 网 站 业务 架构 中 ， 应 把 资源 文件 ， 包 括 用 户 上 传 的 图 片 、 附 件 等 服务 和 程序 服务 分 离 ， 最 好 把 上 传 程序 服务 也 分 离 出 来 ， 这 样 就 可 以 从 容 地 按照 上 文 所 述 的 方法 进行 安全 授权 了 。 


2.Nginx 企 业 网 站 集群 超级 安全 设置 


结合 Linux 权 限 体系 及 Nginx 大 型 集群 架构 进行 配置 ， 严 格 控制 针对 Nginx 目 录 的 访问 才能 降低 网 站 被 入 侵 的 风险 。 比 如 ， 可 根据 图 12-16 中 的 企业 集群 架构 逻辑 图 和 不 同 角色 提供 的 不 同 服务 来 严格 控 
制 不 同 服务 器 的 Nginx 目 录 权 限 。 


\ 上 传 upload 集群 MySQL 数据 库 
记录 图 片 、 附 件 
的 路 径 和 文件 名 


上 传 页 面 中 
的 图 片 及 附件 
存储 帖子 和 
博文 的 内 容 


禁止 解析 ,php、 


态 Web 集群 


禁止 解析 .php、.sh、.pl、 .py f644 d 755 root root 
才 男 玫 才 育 企业 标 闪 网站 架 多 优化 这 加 加 筷 去 /3 扩 


图 12-16 ”专业 的 Nginx 集 群 架构 角色 逻辑 图 


表 12-3 为 集群 架构 中 不 同 于 前 面 Web 业 务 的 权限 管理 细 化 。 


表 12-3 ”集群 架构 中 不 同 角色 的 授权 具体 思路 说 明 


服务 器 角色 权限 处 理 安全 系数 
目录 权限 755， 文件 权限 644， 所 用 的 目录 和 文 | 文件 不 能 被 更 改 ， 目 录 不 能 被 写 和 人， 
件 的 用 户 和 组 都 是 root。 环 境 为 Nginx+PHP 安全 系数 10 

目录 权限 755， 文件 权限 644， 所 用 的 目录 和 文 | 文件 不 能 被 更 改 ， 目 录 不 能 被 写 和 人， 
件 的 用 户 和 组 都 是 root。 环 境 为 Nginx 安全 系数 10 

目录 权限 755， 文件 权限 644， 所 用 的 目录 和 文 | 文件 不 能 被 更 改 ， 目 录 不 能 被 写 入 ， 
件 的 用 户 和 组 都 是 root。 特 别 注意 的 是 : 用 户 上 传 | 但 是 用 户 上 传 的 目录 允许 写 入 文件 且 需 
的 目录 设置 为 755， 用 户 和 组 均 使 用 Nginx 服务 配 | 要 通过 Neginx 的 其 他 功能 来 禁止 读 文 
置 的 用 户 件 ， 安 全 系数 8 


动态 Web 集群 


static 图 片 集群 


上 传 upload 集群 


做 到 上 述 的 设置 后 ， 网 站 服务 在 系统 层面 被 入 侵 的 风险 就 大 大 降低 了 。 


12.8 Nginx 防 爬虫 优化 


1.Robots.txt 机 器 人 协议 介绍 


Robots 协 议 (也 称 为 胞 虫 协议 、 机 器 人 协议 等 ) 的 全 称 是 “网 络 拒 虫 排除 标准 ” (Robots Exclusion Protocol) ， 网 站 通过 Robots 协 议 告诉 搜索 引擎 哪些 页 面 可 以 抓 取 ， 哪 些 页 面 不 能 抓 取 。 有 关 
robots.txt 的 配置 ， 本 书 不 会 详细 讲解 。 


2. 机 器 人 协议 八卦 


2011 年 10 月 25 日 ， 京 东 商 城 正式 将 一 淘 网 的 搜索 胞 虫 屏蔽 ， 以 防止 一 淘 网 对 其 内 容 进行 抓 取 ， 具 体 措施 如 图 12-17 所 示 。 


2008 年 9 月 8 日 ， 淘 宝 网 宣布 封杀 百度 胞 虫 ， 百 度 忍 痛 遵 守 胞 虫 协议 。 因 为 一 旦 破坏 协议 ， 用 户 的 隐私 和 利益 就 无 法 得 到 保障 ， 搜 索 网 站 就 谈 不 上 人 性 关怀 。 


淘宝 的 robots.txt 设 置 如 下 : 


http://www.taobao.com/robots.txt 
User-agent: Baiduspider 
Disallow: / 

User-agent: baiduspider 
Disallow: / 


图 12-18 为 taobao.com robots.txt 设 置 情况 。 


2012 年 8 月 ，360 综 合 搜索 被 指 违反 Robots 协 议 (如 图 12-19 所 示 ) 。 


3.Nginx 防 肥 虫 优化 配置 


我 们 可 以 根据 客户 端的 user-agents 人 信息， 轻松 地 阻止 指定 的 的 虫 候 取 我 们 的 网 站 。 下 面 来 看 几 个 案例 。 


UseTr 一 agent : 4* 

Disallow: /?* 

Disallow: /pop/*.html 
Disallow: /pinpai/*.htm]?* 
User—agent: Etaospider 
Disallow: / 


jd.com robots.txt 设 置 情况 


User—agent: Baiduspider 
Disallow: / 


User-agent: baiduspider 
Disallow: / 


图 12-18 ”taobao.com robots.txt 设 置 情况 


Www.360.cn/robots.txt 


User-agent: +* 
Allow: / 


图 12-19 ”360.cn robots.txt 设 置 情况 


范例 1: 阻止 下 载 协 议 代理 ,命令 如 下 。 


## Block download agents 振 # 
if ($http user agent ~* LWP::Simple|BBBike|wget) { 
return 403; 


} 


说 明 
如 果 用 户 匹 配 了 if 后 面 的 客户 端 ( 例 如 wget) ， 就 返回 403。 
这 里 根据 $http_user_agent 获 取 客 户 端 agent， 然 后 判断 是 否 允 许 或 返回 指定 错误 码 。 


范例 2: 添加 内 容 防止 N 多 爬虫 代理 访问 网 站 ， 命 令 如 下 。 


这 些 礁 虫 代理 使 用 “| ”进行 分 隔 ， 具 体 要 处 理 的 礁 虫 可 以 根据 需求 增加 或 减少 ， 添 加 的 内 容 如 下 : 


if ($http user _ agent ~* 


"qihoobot |Baiduspider|Googlebot |Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot 
return 403; 


} 


范例 3: 测试 禁止 不 同 的 浏览 器 软件 访问 。 


示例 代码 如 下 : 


($http user agent ~* "Firefox|MSIE") 
{ 


rewrite ^(.*) http://blog.etiantian.org/$1 permanent; 
} 


如 果 浏览 器 为 Firefox 或 IE， 就 会 跳 转 到 http://blog.etiantian.org。 


12.9 利用 Nginx 限 制 HTTP 的 请 求 方法 


Es 


最 常用 的 HTTP 方 法 为 GET、POST， 我 们 可 以 通过 Nginx 限 制 HTTP 请 求 的 方法 来 达到 提升 服务 器 安全 的 目的 ， 例 如 ， 让 HTTP 只 能 使 用 GET、HEAD 和 POST 方法 的 配置 如 下 : 


#0nly allow these request methods 
if ($request method !~ ^(GET|HEAD|POST)$ ) { 
return 501; 


} 
#Do not accept DELETE, SEARCH and other methods 


12.7 节 中 提 到 过 ， 当 上 传 服务 器 将 数据 上 传 到 存储 服务 器 时 ， 用 户 上 传 写 入 的 目录 就 不 得 不 给 Nginx 对 应 的 用 户 赋予 相关 权限 ， 这 样 一 旦 程序 出 现 漏洞 ， 木 马 就 有 可 能 被 上 传 到 服务 器 挂 载 的 对 应 存储 
服务 器 的 目录 里 ， 虽 然 我 们 也 做 了 禁止 PHP、SH、PL、PY 等 扩展 名 的 解析 限制 ， 但 还 是 会 遗漏 一 些 意 想不到 的 可 执行 文件 。 对 于 这 种 情况 ， 该 怎么 办 呢 ? 事实 上 ， 还 可 以 通过 限制 上 传 服务 器 的 Web 服 务 
(可 以 具体 到 文件 ) 使 用 GET 方 法 ， 防 止 用 户 通过 上 传 服务 器 访问 存储 内 容 ， 让 访问 存储 渠道 只 能 从 静态 或 图 片 服务 器 入 口 进入 。 例 如 ， 在 上 传 服务 器 上 限制 HTTP 的 GET 方 法 的 配置 如 下 : 


## Only allow GET request methods 相 
if ($request method ~* ^(GET)$ ) { 
return 501; 
} 


提示 


还 可 以 加 一 层 location， 更 具体 地 限制 文件 名 。 


实际 效果 如 图 12-20 所 示 。 


上 501 Not Implemented 基 


€ SC Dwww.etiantian.org/test.html 


501 Not Implemented 


图 12-20 ”禁止 HTTP GET 方 法 的 实际 访问 效果 


12.10 ”使 用 CDN 做 网 站 内 容 加 速 


12.10.1 什么 是 CDN 


CDN 的 全 称 是 Content Delivery Network， 中 文章 思 是 内 容 分 发 网 络 。 简 单 地 讲 ， 通 过 在 现 有 的 Internet 中 增加 一 层 新 的 网 络 架构 ， 将 网 站 的 内 容 发 布 到 最 接近 用 户 的 Cache 服 务 器 内 ， 通 过 智能 DNS 
负载 均衡 技术 ， 判 断 用 户 的 来 源 ， 让 用 户 就 近 使 用 与 服务 器 相同 线路 的 带宽 访问 Cache 服 务 器 ， 取 得 所 需 的 内 容 。 例 如 : 天 津 网 通用 户 访问 天 津 网 通 Cache 服 务 器 上 的 内 容 ， 北 京 电信 访问 北京 电信 Cache 
服务 器 上 的 内 容 。 这 样 可 以 有 效 减少 数据 在 网 络 上 传输 的 时 间 ， 从 提高 访问 速度 。 


CDN 是 一 套 全 国 或 全 球 的 分 布 式 缓存 集群 ， 其 实质 是 通过 智能 DNS 判断 用 户 的 来 源 地 域 及 上 网 线路 ， 为 用 户 选择 一 个 最 接近 用 户 地 域 ， 以 及 和 用 户 上 网 线路 相同 的 服务 器 节点 ， 因 为 地 域 近 ， 且 线路 相 
同 ， 所 以 ， 可 以 大 幅 提升 用 户 浏览 网 站 的 体验 。 


CDN 产 生 背 景 之 一 : BGP 机 房 虽然 可 以 提升 用 户 体验 ， 但 是 价格 昂贵 ， 对 于 用 户 来 说，CDN 的 诞生 可 以 提供 比 BGP 机 房 更 好 的 体验 (让 同一 地 区 、 同 一 线路 的 用 户 访问 和 当地 同一 线路 的 网 站 ) ，BGP 
机 房 和 普通 机 房 有 将 近 5~10 倍 的 价格 差 。CDN 多 使 用 单线 的 机 房 ， 根 据 用 户 的 线路 及 位 置 ， 为 用 户 选择 靠近 用 户 的 位 置 ， 以 及 相同 的 运营 商 线路 ， 不 但 提升 了 用 户 体验 ,价格 也 降 了 下 来 。 


CDN 的 价值 : 
“为 架设 网 站 的 企业 省 钱 。 


“ 提升 企业 网 站 的 用 户 访问 体验 (相同 线路 、 相 同 地 域 、 内 存 访问 ) 。 


“ 可 以 阻挡 大 部 分 流量 攻击 ， 例如: DDOS 攻 击 。 


经 常 有 朋友 问 我 ， 日 100 万 PV 的 架构 如 何 设 计 ? 对 于 这 样 的 问题 ， 下 面 简 单 为 大 家 提供 解答 思路 : 首先 应 尽量 考虑 把 网 站 数据 放 到 CDN 中 缓存 ， 这 样 计算 在 网 站 中 的 总 流量 和 总 访问 量 后 减 去 CDN 的 访 
问 流量 ， 剩 下 的 访问 量规 模 需要 的 架构 才 是 我 们 需要 设计 和 考虑 的 。 一 个 良好 的 网 站 架构 设计 ， 访 问 量 应 尽量 都 交 给 CDN。 


12.11 Nginx 程 序 架构 优化 


解 耦 是 开发 人 员 中 流行 的 一 个 名 词 ， 简 单 地 说 就 是 把 一 堆 程 序 代码 按照 业务 用 途 分 开 ， 然 后 提供 服务 ， 例 如 : 注册 登录 、 上 传 、 下 载 、 浏 览 列 表 、 商 品 内 容 页 面 、 订 单 支付 等 都 应 该 是 独立 的 程序 服 
务 ， 只 不 过 在 客户 端 看 来 是 一 个 整体 而 已 。 如 果 中 小 公司 做 不 到 上 述 细致 的 解 厢 ， 起 码 也 要 让 下 面 的 几 个 程序 模块 独立 。 


“ 网 页 页 面 服务 。 


片 附件 及 下 载 服务 。 


"上传 图 片 服务 。 


上 述 三 者 的 功能 应 尽量 分 离 。 分 离 的 最 佳 方式 是 分 别 使 用 独立 的 服务 器 (需要 改动 程序 ) ， 如 果 程 序 实在 不 易 更 改 ， 那 么 次 选 方案 是 在 前 端 负 载 均衡 器 Haproxy/Nginx 上 ， 根 据 URI (例如 目录 或 扩展 
名 ) 过 滤 请 求 ， 然 后 抛 给 后 面 对 应 的 服务 器 。 


例如 : 根据 扩展 名 分 发 ， 请 求 http://www.etiantian.org/a/b.jpg 的 就 应 抛 给 图 片 服 务 器 (独立 的 静态 服务 器 最 适合 使 用 CDN) ; 根据 URL 路 径 分 发 ， 请 
求 http://www.etiantian.org/upload/index.php 的 就 应 抛 给 上 传 服务 器 。 不 符合 上 面 两 个 要 求 的 ， 就 默认 抛 给 Web 服 务 器 。 


[ 


说 明 


可 以 部 署 3 台 服务 器 ， 人 为 分 布 请 求 服务 器 。 当 然 了 ， 这 适合 并 发 比较 高 、 服 务 器 较 多 的 情况 。 程 序 架 构 分 离 了 ， 效 率 、 安 全 性 都 会 提高 很 多 。 


12.12， 使 用 普通 用 户 启动 Nginx (监牢 模式 ) 


12.12.1 为 什么 要 让 Nginx 服 务 使 用 普通 用 户 


默认 情况 下 ，Nginx 的 Master 进 程 使 用 的 是 root 用 户 ，worker 进 程 使 用 的 是 Nginx 指 定 的 普通 用 户 ， 使 用 root 用 户 运 行 Nginx 的 Master 进 程 有 两 个 最 大 的 问题 : 


“ 管理 权限 必须 是 root， 这 就 使 得 最 小 化 分 配 权 限 原 则 遇 到 难题 。 


“ 使 用 root 运 行 Nginx 服 务 ， 一 旦 网 站 出 现 漏洞 ， 用 户 就 可 以 很 容易 地 获得 服务 器 的 toot 权 限 。 


因此 ， 我 想 出 了 一 种 不 用 为 开发 人 员 ， 甚 至 普通 运 维 人 员 赋 予 管理 员 权限 ， 就 可 以 很 好 地 管理 Nginx 服 务 的 方法 ， 具 体内 容 将 在 下 节 为 大 家 讲解 。 


12.13 ”控制 Nginx 并 发 连接 数量 


ngx_http_limit conn_module 这 个 模块 用 于 限制 每 个 定义 的 key 值 的 连接 数 ， 特 别 是 单 |P 的 连接 数 。 


不 是 所 有 的 连接 数 都 会 被 计数 。 一 个 符合 计数 要 求 的 连接 是 整个 请 求 头 已 经 被 读 取 的 连接 。 
控制 Nginx 并 发 连接 数量 参数 的 说 明 如 下 。 

1) limit_conn_zone 参 数 

语法 : limit conn_zone key zone=name: size; 


上 下 文 : http 


于 设置 共享 内 存 区 域 ，key 可 以 是 字符 串 ，Nginx 自 带 变 量 或 前 两 个 组 合 ， 如 $binary_remote_addr、$server_ name。name 为 内 存 区 域 的 名 称 ，size 为 内 存 区 域 的 大 小 。 


2) limit_conn 参 数 
语法 : limit_conn zone number; 


上 下 文 : http、server、location 


于 指定 key 设 置 的 最 大 连接 数 。 当 超过 最 大 连接 数 时 ， 服 务 器 会 返回 503 (Service Temporarily Unavailable) 错误 。 


1. 限 制 单 IP 并 发 连接 数 


Nginx 的 配置 文件 如 下 : 


[root@oldboy ~]# cat /application/nginx/conf/nginx.conf 
worker processes 1; 
events { 

worker connections 1024; 


} 

http { 
include mime.types; 
default type application/octet-stream; 
sendfile on; 


keepalive timeout 65; 
limit conn zone $binary remote addr zone=addr:10m; 


server { 
listen 
server name 
location / { 
root 
index 


limit_conn addr 1; #<== 限 


80; 
www.etiantian.org; 


html; 
index.html index.htm; 


制 单 IP 的 并 发 连接 为 ] 


在 客户 端 10.0.0.5 使 用 Apache 的 ab 测试 工具 进行 测试 。 
测试 1: 模拟 并 发 连接 1， 访 问 10 次 服务 器 ， 即 执行 ab-c 1-n 10 http://10.0.0.3/ 进 行 测试 。 
注意 
-c 为 并 发 数 ，-n 为 请 求 总 数 ，10.0.0.3 为 Nginx 的 IP 地 址 。 
过 程 中 查看 Nginx 的 访问 日 志 ， 结 果 如 下 : 

[root@oldboy ~]# tailf /application/nginx/logs/access.10g 
10.0.0.5 - - [14/Sep/2015:11:50:31 +0800] "GET / HTTP/1.0" 200 612 "-" "ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: :31 +0800] "GET / HTTP/1. 200 612 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: :31 +0800] "GET / HTTP/1. 200 612 ApacheBench/2. 
10.0.0.5 - -~ [1i4/Ssp/2015: :31 +0800] "GET / HTTP/1. 200 612 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: :31 +0800] "GET / HTTP/1. 200 612 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: :31 +0800] "GET / HTTP/1. 200 612 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: :31 +0800] "GET / HTTP/1. 200 612 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: :31 +0800] "GET / HTTP/1. 200 612 ApacheBench/2 
10.0.0.5 - - [14/Sep/2015: :31 +0800] "GET / HTTP/1. 200 612 ApacheBench/2 
10.0.0.5 - - [14/Sep/2015: :31 +0800] "GET / HTTP/1. 200 612 "-" "ApacheBench/2. 
根据 上 述 日 志 可 以 看 出 当 并 发 为 1 时 ， 返 回 值 都 是 200， 即 访问 正常 。 
测试 2: 模拟 并 发 连接 2， 访 问 10 次 服务 器 ， 即 执行 ab-c 2-n 10 http://10.0.0.3/ 进 行 测试 。 

试 过 程 中 查看 Nginx 的 访问 日 志 ， 结 果 如 下 : 
10.0.0.5 - - [14/Sep/2015: "GET / HTTP/1. 200 612 "-" "ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: "GET / HTTP/1. 503 212 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: "GET / HTTP/1. 200 612 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: "GET / HTTP/1. 200 612 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: "GET / HTTP/1. S03 212 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: "GET / HTTP/1. 200 612 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: "GET / HITP/L. 503 212 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: wep /HITE/Ls 200 612 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: wepT / HITP/Ls 503 212 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: "GET / HTTP/1. 200 612 ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015: "GET / HTTP/1. 503 212 "-" "ApacheBench/2. 


可 以 看 到 状态 码 200 与 503 间 隔 1: 


1 出 现 ， 即 Nginx 已 经 做 了 并 发 连接 限制 ， 对 超过 限制 的 请 求 返回 503。 


测试 3: 模拟 并 发 连接 3， 访 问 10 次 服务 器 ， 即 执行 ab-c3-n 10 http://10.0.0.3/ 进 行 测试 。 

试 过 程 中 查看 Nginx 的 访问 日 志 ， 结 果 如 下 : 
10.0.0.5 - - [14/Sep/2015: +0800] "GET / HTTP/1.0" 200 612 "-" "ApacheBench/2.3" 
10.0.0.5 - - [14/Sep/2015: +0800] "GET / HTTP/1.0" 200 612 ApacheBench/2.3" 
10.0.0.5 - - [14/Sep/2015: +0800] "GET / HTTP/1.0" 503 212 ApacheBench/2.3" 
10.0.0.5 - - [14/Sep/2015: +0800] "GET / HTTP/1.0" 503 212 ApacheBench/2.3" 
10.0.0.5 - - [14/Sep/2015: +0800] "GET / HTTP/1.0" 200 612 ApacheBench/2.3" 
10.0.0.5 - - [14/Sep/2015: +0800] "GET / HTTP/1.0" 503 212 ApacheBench/2.3" 
10.0.0.5 - - [14/Sep/2015: +0800] "GET / HTTP/1.0" 503 212 ApacheBench/2.3" 
10.0.0.5 - - [14/Sep/2015: +0800] "GET / HTTP/1.0" 200 612 ApacheBench/2.3" 
10.0.0.5 - - [14/Sep/2015: +0800] "GET / HTTP/1.0" 200 612 ApacheBench/2.3" 
10.0.0.5 - - [14/Sep/2015: +0800] "GET / HTTP/1.0" 503 212 ApacheBench/2.3" 
由 于 采用 的 样本 较 小 ， 所 以 出 现 的 次 数 并 不 均衡 。 但 看 其 中 间 数 据 ，200 与 503 出 现 的 次 数 为 1: 2， 即 Nginx 已 经 做 了 并 发 连接 限制 ， 对 超过 限制 的 请 求 返 回 503。 
以 上 功能 的 应 用 场景 之 一 是 用 于 服务 器 下 载 ， 命 令 如 下 : 


location /download/ { 


limit conn agddr 1; 


b 


上 面 的 命令 限制 访问 download 下 载 目录 的 连接 数 ， 该 连接 数 为 1。 


2. 限 制 虚拟 主机 总 连 


车 接 数 


不 仅 可 以 限制 单 IP 的 并 发 连接 数 ， 还 可 以 限制 虚拟 主机 的 总 连接 数 ， 甚 至 可 以 对 两 者 同时 进行 限制 。Nginx 的 配置 文件 如 下 : 


[root@oldboy ~]# cat 
worker processes 1; 
events { 


worker connections 


} 

http { 
include 
default type 
sendfile 


/application/nginx/conf/nginx.conf 


1024; 


mime.types; 
application/octet-stream; 
on; 


keepalive timeout 65; 
limit conn zone $binary remote addr zone=addr:10m; 
limit conn zone $server name zone=perserver:10m; 


server { 
listen 
server name 
location / { 
root 
index 


80; 
www.etiantian.org; 


html; 
index.html index.htm; 


#1imit conn addr 1; 
limit_conn perserver 2; #<== 设 置 虚 拟 主机 连接 数 为 2 


提示 


Nginx 的 内 部 变量 列表 见 官 网 http://nginx.org/en/docs/varindex.html。 


测试 : 执行 ab-c 5-n 1000 http://10.0.0.3/ 进 行 测试 ， 即 并 发 连接 数 为 5， 访 问 1000 次 。 


统计 日 志 中 200 与 503 出 现 的 次 数 (测试 前 清空 


复制 到 root 根 


志 ， 测 完 将 日 志 


录 ) ， 代 码 如 下 : 


[root@oldboy ~]# grep -c 200 access.1og 
634 
[root@oldboy ~]# grep -c 503 access.1og 
366 


结论 : 出 现 的 次 数 近似 为 2: 1。 


至 此 ，Nginx 限 制 连 接 数 的 应 


实践 就 讲解 完毕 了 。 


更 多 内 容 可 参考 : http://nginx.org/en/docs/http/ngx_http_limit_conn_module.html。 


12.14 ”控制 客户 端 请 求 Nginx 的 速率 


ngx_http_limit_req_module 模 块 用 于 限制 每 个 IP 访 问 每 个 定义 key 的 请 求 速率 。limit_req_zone 参 数 说 明 如 下 。 


语法 : limit_req_zone key zone=name: size rate=rate; 
上 下 文 : http 


于 设置 共享 内 存 区 域 ，key 可 以 是 字符 串 ，Nginx 自 带 变量 或 前 两 个 组 合 


imit_req 参 数 说 明 如 下 。 


语法 : 


imit_req zone=name[burst=number][nodelay]; 


location 


上 下 文 : 


http、server、 


这 里 运用 了 令 牌 桶 原理 ，burst=num， 一 共有 num 块 令 牌 ， 


换 句 话说 ， 
503。 


一 个 银行 ， 只 有 一 个 营业 员 ， 银 行 很 小 ， 


nodelay 默 认 在 不 超过 burst 值 的 前 提 下 会 排队 等 待 处 理 ， 如 果 使 


此 参数 ， 


于 测试 的 Nginx 配 置 文件 如 下 : 


等 候 室 只 有 5 个 人 的 位 置 。 


， 如 $binary_remote_addr。name 为 内 存 


令 牌 发 完 后 ， 多 出 来 的 那些 请 求 就 会 返 


因此 ， 营 业 员 一 个 


回 503。 


时 刻 只 全 


区 域 的 名 称 ， 


Size 为 内 存 | 


就 会 处 理 完 num+ 1 次 请 求 ， 剩 余 的 请 求 都 视 为 超时 ， 返 回 503。 


区 域 的 大 小 ， 


rate 为 速率 ， 


单位 为 r/s， 


每 秒 一 个 


为 一 个 人 提供 服务 ， 剩 下 的 不 超过 5 个 人 可 以 在 银行 内 等 待 ， 超 出 的 人 不 提供 服务 ， 


请 求 。 


直接 返回 


root@oldboy ~]# cat /application/nginx/conf/nginx.conf 
worker processes 1; 
events { 
worker connections 1024; 
} 
http { 
include mime.types; 
default type application/octet-stream; 
sendfile on; 


keepalive timeout 65; 

limit req zone $binary remote addr zone=one: Om rate=1r/s; 
的 客户 端 TP 作 为 Key 值 ， 内 存 区 域 命名 为 one， 分 配 10MB 内 存 空 
request) 


listen 80; 
server name www.etiantian.org; 
location / { 
root html; 
index index.html index.htm; 
limit req zone=one burst=5; 


#<== 使 用 前 面 定 叉 的 名 为 one 的 内 存 空间 ， 
} 
} 


间 ， 访 问 速率 限制 为 


队列 值 为 5， 即 可 以 有 5 个 请 求 排队 等 待 


测试 1: 执行 ab-c 4-n 1000 http://10.0.0.3/ 和 ab-c 5-n 1000 http://10.0.0.3/ 进 行 测试 ， 命 令 及 结果 如 下 。 
[root@oldboy ~]# tailf ap ootion/no ne/ age/ ome log 

10.0.0.5 - - [14/Sep/2015:13:50:19 +0800] "GET / HTTP/1.0" 200 612 " "ApacheBench/2. 
10.0.0.5 - - [14/Sep/201 50:20 +0800] "GET / HTTP/1.0" 200 612 'ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015:13:50:21 +0800] "GET / HTTP/1.0" 200 612 "ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015:13:50:22 +0800] "GET / HTTP/1.0" 200 612 'ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015:13:50:23 +0800] "GET / HTTP/1.0" 200 612 'ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015:13:50:24 +0800] "GET / HTTP/1.0" 200 612 'ApacheBench/2. 
10.0.0.5 - - [14/Sep/2015:13:50:25 +0800] "GET / HTTP/1.0" 200 612 " 'ApacheBench/2. 


可 以 发 现 ， 访 问 日 志 中 的 时 间 和 请 求 是 1 秒 钟 1 条 请 求 ， 证 明 配置 生效 。 


测试 2: 执行 ab-c 6-n 1000 http://10.0.0.3/ 进 行 测试 。 


统计 日 志 中 的 200 与 503 出 现 的 次 数 (测试 前 已 清空 


志 ， 测 完 将 日 志 


复制 到 root 根 


录 ) 如 下 : 


[root@oldboy ~]# grep -c 200 access.1og 

6 

[root@oldboy ~]# grep -c 503 access.1og 

994 

[root@oldboy ~]# more access.1og 

10.0.0.5 - - [14/Sep/2015:13:48:42 +0800] "GET / HTTP/1.0" 200 612 
10.0.0.5 - - [14/Sep/2015:13:48:42 +0800] "GET / HTTP/1.0" 503 212 
10.0.0.5 - - [14/Sep/2015:13:48:42 +0800] "GET / HTTP/1.0" 503 212 
10.0.0.5 - - [14/Sep/2015:13:48:42 +0800] "GET / HTTP/1.0" 503 212 
10.0.0.5 - - [14/Sep/2015:13:48:42 +0800] "GET / HTTP/1.0" 503 212 


"-" "ApacheBench/2. 
'ApacheBench/2. 
'ApacheBench/2. 
'ApacheBench/2. 
"-" "ApacheBench/2. 


3" 
3 
3" 
3" 
3" 


10.0.0.5 - - [14/Sep/2015:13:48:42 +0800] "GET / HTTP/1.0" 503 212 "-" "ApacheBench/2.3"..…. 漠 略 车 千 see 省 略 若干 …… 
10.0.0.5 - - [14/Sep/2015:13:48:42 +0800] "GET / HTTP/1.0" 503 212 "-" " :3 
10.0.0.5 - - [14/Sep/2015:13:48:42 +0800] "GET / HTTP/1.0" 503 212 "- 3" 
10.0.0.5 - - [14/Sep/2015:13:48:42 +0800] "GET / HTTP/1.0" 503 212 "-" " 3" 
10.0.0.5 - - [14/Sep/2015:13:48:43 +0800] "GET / HTTP/1.0" 200 612 "-"" 3" 
10.0.0.5 - - [14/Sep/2015:13:48:44 +0800] "GET / HTTP/1.0" 200 612 "-"" 3 
10.0.0.5 - - [14/Sep/2015:13:48:45 +0800] "GET / HTTP/1.0" 200 612 "- .3" 
10.0.0.5 - - [14/Sep/2015:13:48:46 +0800] "GET / HTTP/1.0" 200 612 "-" " .3" 
10.0.0.5 - - [14/Sep/2015:13:48:47 +0800] "GET / HTTP/1.0" 200 612 "-" "ApacheBench/2.3" 


通过 过 滤 排 重 及 部 分 日 志 ， 可 以 看 到 第 一 个 请 求 返回 200， 为 正常 处 理 ， 剩 余 的 994 次 超过 限制 的 请 求 在 1 秒 内 执行 完成 ， 但 是 都 返回 了 503。 


人 体 过 程 原理 为 : Nginx 在 第 1 秒 先 处 理 第 一 个 请 求 ， 同 时 接 下 来 的 5 个 请 求 等 待 排 了 从， 剩 下 的 所 有 (994 次 ) 请 求 返回 503。 接 着 第 2 秒 到 第 6 秒 处 理 等 待 的 5 个 请 求 。 


更 多 内 容 可 参考 : http://nginx.org/en/docs/httpyngx_http_limit_ req_module.html。 


1215 本 潍 


本 章 重点 回顾 : 


(1) 安全 优化 : 隐藏 Nginx 软 件 名 及 版 本 号 。 

(2) 性 能 加 安全 优化 : 连接 超时 参数 及 FastCGI 相 关 参 数 调 优 。 
(3) 性 能 优化 : gzip 压 缩 功 能 及 调试 查看 方法 。 

(4) 性 能 优化 : expires 缓 存 功能 及 调试 查看 方法 。 

(5) 安全 优化 : 集群 中 各 角色 服务 站 点 目录 权限 控制 策略 。 

(6) 安全 优化 : 站 点 目录 下 所 有 的 文件 和 目录 访问 控制 。 


(7) 性 能 加 安全 优化 : robots.txt 协 议 及 防 胞 虫 优化 解决 方案 。 


(8) 性 能 加 安全 优化 : 静态 资源 防盗 链 解 决 方案 。 


(9) 用 户 体验 优化 : 错误 页 面 优雅 显示 方法 。 


(10) 安全 优化 : 限制 HTTP 请 求 方法 。 


(11) 性 能 加 安全 优化 : CDN 加 速 知识 。 


(12) 安全 优化 : 监牢 模式 运行 Nginx 方 案 策略 。 


(13) 性 能 加 安全 优化 : Nginx 并 发 连接 数 及 请 求 速率 控制 。 


第 13 章 ”游戏 运 维 的 思考 


作者 简介 


马 亮 , 原 搜狐 畅游 端 游 研发 ， 端 游 、 手 游 、 运 维 开 发 主管 ， 现 腾讯 云 自 身 游戏 资深 信 前 架构 师 、 游 戏 云 高 级 产品 经 理 。 


13.1 ”游戏 运 维 最 关键 的 几 件 事 


个 人 认为 ， 游 戏 运 维 的 核心 指标 主要 包含 4 个 方面 : 安全 、 稳 定 、 高 效 、 成 本 节约 。 其 中 ， 安 全 最 为 优先 ， 任 何 因 安全 问题 造成 的 玩家 数据 丢失 或 版 本 泄露 都 是 致命 的 打击 ; 业务 的 稳定 次 之 ; 高 效 的 前 
提 是 稳定 ， 没 有 稳定 的 基础 再 高 效 都 是 无 用 功 ; 成 本 问题 应 该 是 在 满足 上 述 前 提 下 最 终 的 考量 指标 ， 切 不 可 为 了 节约 成 本 而 影响 了 上 述 的 三 个 指标 。 


13.2 ”游戏 运 维 人 的 发 展 


对 运 维 最 初 的 认识 就 是 该 行业 容易 出 错 ， 经 过 一 段 时 间 实 际 的 操作 之 后 ， 发 现 这 个 行业 简直 就 是 出 错 的 “高 危 ” 行 业 。 而 且 运 维 往往 会 处 于 整个 公司 价值 链 的 最 底层 ， 相 对 被 动 ， 价 值 难 以 被 量化 ， 有 
时 你 会 发 现 干 得 好 是 应 该 的 ， 干 得 不 好 就 是 你 的 错 ， 比 较 苦 。 经 过 长 时 间 的 琢磨 ， 我 们 做 了 很 多 实际 的 工作 来 量化 运 维 的 价值 ， 例 如 成 本 上 的 节约 、 效 率 上 的 优化 与 新 增收 益 的 转换 、 体 验 上 的 改进 与 新 增 
收益 的 转换 ， 等 等 。 成 本 上 的 节约 很 容易 理解 (人力 的 节约 、 硬 件 的 节约 都 算 成 本 上 的 节约 ) ， 关 于 效率 上 的 优化 与 新 增收 益 的 转换 ， 在 这 里 我 可 以 举 个 例子 ， 之 前 我 们 很 关注 更 新 维护 对 业务 带 来 的 影 
响 ， 如 何 与 能 够 做 到 在 线 更 新 ， 如 何 才 能 够 最 大 范围 地 降低 更 新 维护 的 消耗 ， 如 何 才 能 够 尽 可 能 地 保证 每 次 更 新 维护 的 有 效 性 。 我 们 把 整体 更 新 维护 环节 按照 内 部 测试 服 、 线 上 测试 服 、 线 上 全 量 的 方式 分 
布 更 新 ， 保 障 业务 版 本 的 问题 能 够 在 内 部 测试 服 或 线 上 测试 服 时 就 提前 发 现 ， 经 过 内 部 测试 服 〈 环 境 需要 绝对 的 完整 ) ， 版 本 发 错 的 问题 得 到 了 杜绝 ， 大 大 降低 了 版 本 正式 发 布 的 风险 (之 前 曾 有 过 这 样 的 
经 历 ， 发 布 到 全 量 失 败 ) 。 对 发 布 的 方式 我 们 做 到 了 一 键 更 新 维护 ， 配 置 文件 实现 了 统一 ， 把 数据 的 维护 和 业务 的 维护 串 连 起 来 了 ， 整 体 的 更 新 维护 时 间 缩 短 了 5096。 关 于 脚本 类 的 更 新 和 一 些 配置 文件 的 
更 新 也 做 到 了 热 更 新 ， 动 态 加 载 ， 减 少 了 停 服 和 起 服 的 环节 。 经 过 这 一 番 工 作 的 努力 ， 可 由 此 同比 新 增 的 用 户 消费 来 核算 实际 的 价值 。 关 于 体验 上 的 改进 与 新 增收 益 的 转换 ， 我 们 可 以 从 游戏 玩家 接 入 的 效 
率 和 充值 的 效率 两 方面 同期 对 比 新 增 消费 来 核算 实际 的 价值 。 找 到 了 价值 点 后 ， 如 何 让 价值 点 转换 成 我 们 的 实际 收益 呢 。 我 们 做 了 一 些 工作 ， 之 前 运 维 侧 属于 平台 侧 ， 项 目 奖金 和 他 们 没有 关系 ， 经 过 几 得 
的 争取 ， 运 维 核心 接口 也 慢 慢 纳入 到 了 项 目 核心 团队 中 ， 能 够 从 项 目的 奖金 中 得 到 一 定 的 收益 。 有 了 价值 点 的 体现 ， 我 们 就 需要 将 价值 点 持续 放大 ， 这 里 就 需要 深入 理解 业务 ， 深 入 理解 这 个 行业 的 深度 ， 


并 且 主 动 参与 各 类 实际 的 案例 以 持续 积累 经 验 ， 主 动向 上 游学 习 ， 把 自我 的 价值 在 公司 内 部 持续 放大 。 


另外 一 方面 ， 我 们 也 在 持续 推动 如 何 量化 运 维 人 员 的 行业 价值 ， 这 里 我 们 借鉴 了 同行 业 不 同 公司 对 人 员 能 力 模型 的 界定 标准 及 不 同 公司 对 运 维 人 员 的 薪酬 标准 ， 慢 慢 摸索 出 公司 内 部 关于 人 员 自身 行业 
价值 的 评价 标准 ， 由 此 也 开拓 了 另外 一 条 价值 升值 的 通道 。 从 目前 的 行业 来 看 ， 游 戏 运 维 有 四 个 方向 : 游戏 运营 侧 的 技术 专家 ， 一 方面 ， 能 够 增加 对 整体 游戏 技术 的 理解 ， 另 一 方面 ， 能 够 在 游戏 的 价值 输 
出 中 提供 更 多 的 价值 ， 这 里 需要 他 们 能 够 对 游戏 的 测试 、 评 测 和 研发 都 有 所 涉猎 ， 从 长 远 看 可 以 往 研发 、 制 作 人 或 运营 经 理 方向 发 展 ， 离 用 户 最 近 ， 价 值 就 放大 得 越 大 ， 游 戏 运 维 专家 ， 这 里 需要 他 们 经 历 
更 多 产品 的 游戏 运 维 ， 对 游戏 运 维 梳理 总 结 出 一 套 标准 和 框架 ， 能 够 从 整体 来 放大 游戏 运 维 的 价值 ; 资深 游戏 运 维 架构 师 ， 转 行 做 售 前 ， 将 游戏 运 维 的 经 验 和 云 相 结合 并 输出 给 客户 ， 为 云 公司 带 来 收益 ， 
由 此 体现 自身 的 价值 ; 平台 运 维 ， 将 游戏 运 维 的 经 验 下 沉 和 底层 的 技术 相 结合 ， 因 为 他 们 具备 实际 的 业务 经 验 ， 对 于 技术 和 业务 的 结合 更 具 优势 ， 而 且 设 计 出 的 技术 产品 更 贴近 用 户 。 


图 13-9 所 示 的 为 游戏 运 维 人 发 展示 意图 : 


实践 出 真知 ， 做 了 就 有 收获 


善于 跳出 来 从 上 游 思 考 


离 用 广 : 
让 有 自己 的 价值 使 更 多 人 受 3 
用 技术 实现 理念 ， 做 最 适合 自己 的 产品 


最 近 


多 


有 


价值 最 大 化 转换 各 


| 


13-9 游戏 运 维 人 发 展示 意图 


13.3 小 结 


经 过 几 年 运 维 经 验 的 积累 和 沉淀 ， 游 戏 运 维 整体 平台 智能 化 的 演变 从 “小 米 加 步枪 ”转化 为 蓝 鲸 运 维 平台 ， 运 维 思想 从 以 成 本 为 中 心 转化 为 以 价值 为 中 心 ， 岗 位 定位 从 支撑 岗位 转化 收入 岗位 ， 过 程 中 
运 维 人 一 直 在 努力 寻找 可 量化 自我 价值 的 标准 ， 并 主动 从 自身 技能 上 不 断 进 行 突 破 和 改变 ， 尝 试 了 各 类 方案 的 验证 。 随 着 云 时 代 的 到 来 ， 游 戏 运 维 人 和 云 厂商 可 以 共同 为 行业 转变 出 谋划 策 ， 并 逐步 摆脱 底 
层 建 设 的 依赖 ， 真 正 实现 运 维 人 的 价值 。 


第 14 章 ”数据库 平台 建设 实战 


作者 简介 


赵 海 军 ， 猎 鹏 移动 数据 库 负责 人 ， 先 后 做 过 IDC 运 维和 应 用 运 维 ， 最 近 三 年 在 做 数据 库 运 维 ， 负 责 公司 的 MySQL、RDS、Redis、MongoDB、Memcached 数 据 库 运 维 ， 主 导 设计 了 公司 的 MySQL 数 据 库 平 
， 并 对 800+MySQL 实 例 进行 了 迁移 ， 对 LVS 运 维 、Redis、Codis 运 维 有 一 定 的 经 验 。 博 客 地 址 http:/ /navyaijm.blog51cto.com/。 


中 


本 章 将 为 大 家 介绍 一 下 猎豹 移动 数据 库 平台 相关 的 一 些 技术 ， 这 个 平台 也 是 我 亲自 参与 设计 和 规划 的 ， 很 多 东西 都 是 从 日 常 工 作 中 总 结 出 来 的 。 在 此 要 感谢 我 们 平台 的 核心 开发 工程 师 李 剑 辉 、 邓 瑶 还 
有 前 同事 李 恒 ， 还 要 感谢 我 们 数据 库 团队 的 刘 建 ， 他 负责 了 后 期 的 需求 整理 和 测试 。 本 章 不 会 介绍 平台 的 代码 实现 ， 而 主要 是 介绍 一 下 平台 的 前 期 规划 、 架 构 选 型 、 需 求 梳理 ， 我 觉得 任何 一 个 平台 若 要 成 
功 上 线 ， 这些 都 是 基础 ， 所 以 ， 本 章 将 主要 介绍 猎豹 移动 数据 库 运 维 的 一 些 规范 和 这 个 平台 的 架构 ， 以 及 实现 了 什么 样 的 功能 ,希望 对 大 家 在 今后 自己 的 平台 化 建设 方面 有 所 帮助 。 


近年 来 ， 平 台 化 、 自 动 化 这 两 个 名 词 在 运 维 的 圈子 里 已 经 “ 火 ” 到 | 高 潮 了 ， 各 家 公司 都 在 搞 平 台 化、 自动 化 ,我们 也 不 例外 ， 但 是 过 程 很 痛苦 ， 痛 苦 的 根源 就 是 历史 包 裕 太 重 ， 对 于 这 点 相信 很 多 人 都 
有 同感 吧 。 比 如 软件 安装 ， 有 使 用 yum 安 装 的 ， 还 有 编译 安装 的 ， 并 且 路 径 都 各 不 相同 ， 所 以 ,我 个 人 的 建议 是 暂且 抛 开 沉 重 的 历史 包 裕 ， 建 立 相关 的 规范 ， 为 平台 化 建设 葛 定 基础 ， 待 我 们 的 平台 建设 完 
成 之 后 再 逐步 瓦解 “历史 包 裕 ” ， 逐 步 向 平台 上 迁移 ， 实 现 最 终 的 统一 管理 。 


14.2 ”架构 设计 


本 节 主 要 分 为 两 部 分 ， 第 一 部 分 给 出 架构 图 大 概 简 述 一 下 平台 的 功能 ,第 二 部 分 介绍 一 下 平台 各 个 模块 的 主要 功能 。 


14.3.1 操作 部 分 


这 部 分 是 整个 平台 的 核心 功能 ， 日 常 运 维 的 一 些 功能 都 包含 在 这 里 ， 包 括 新 增 实例 、 从 库 、 迁 入 (把 一 个 库 从 平台 外 迁 入 平台 管理 ) 、 实 例 下 线 、 迁 移 、 权 限 管理 等 ， 下 面 将 逐一 介绍 各 个 功能 。 


1. 新 增 实例 、 从 库 


如 图 14-3 所 示 的 是 新 增 一 个 数据 库 的 操作 截图 ， 接 下 来 逐一 说 一 下 各 个 选项 的 含义 。 


业务 名 称 ， 这 个 就 是 数据 库 的 名 字 ， 在 14.1.4 节 的 “目录 规范 ”中 已 经 介绍 过 ， 每 一 个 实例 只 能 有 一 个 database， 并 且 database 的 名 字 和 目录 的 名 字 一 一 对 应 ， 与 平台 对 应 的 业务 名 称 也 有 一 定 的 限 
制 ， 比 如 ， 整 个 平台 的 业务 名 称 (数据 库 名 ) 是 唯一 的 ， 还 有 就 是 数据 库 名 不 支持 的 特殊 符号 ， 我 们 在 平台 上 也 是 做 了 限制 的 。 


数据 库 版 本 ， 这 个 是 可 以 自己 选择 的 ， 前 提 是 需要 我 们 在 后 台 把 相应 的 版 本 模板 部 署 好 ， 然 后 在 平台 上 录入 版 本 号 ， 接 下 来 新 建 实例 的 时 候 就 可 以 选择 你 的 新 版 本 了 ， 个 人 觉得 这 个 功能 很 实用 ， 只 : 
你 把 模板 部 署 好 ， 无 论 是 Percona 还 是 MariaDB， 还 是 官方 的 都 可 以 安装 。 


Master 机 器 |P， 就 是 这 组 实例 的 主 库 所 在 的 DB 服务 器 |P， 需 要 自己 选择 ， 底 层 的 DB 服务 器 有 几 十 台 甚 至 上 百 台 ， 每 台 的 配置 也 不 尽 相同 ， 所 以 选择 一 台 合适 的 DB 服务 器 也 是 一 个 体力 活 ， 我 们 正在 考 
虑 优化 ， 比 如 平台 可 以 动态 推荐 给 我 们 低 负 载 的 Top5 供 我 们 选择 ， 而 不 是 在 茫茫 IP 列 表 里 去 选择 合适 的 DB 服务 器 。 


vein 
wan CD 
LVS 映 射 庄 口 : LVS 映 射 过 来 的 庙 口 
redir 碳 射 请 口 : redir 映 射 过 来 的 讽 口 
sa CD 


是 否 开启 主 从 分 离 : ” 目 


NP : EI 
用 途 :| naw 测 试 数据 库 


使 用 级 别 : 中 等 


业务 使 用 人 : ”| 赵 海 盏 


使 用 人 手机 : 13813813800 
aaa， 


提交 


图 14-3 ”新 增 数据 库 


端口 ， 这 个 是 平台 全 局 把 控 的 ， 并 且 整 个 平台 全 局 唯一 ， 所 有 端口 都 是 平台 自己 生成 的 ， 而 且 不 可 以 修改 ,包括 Master 机 器 端口 、LVS 映 射 端口 、Redir 映 射 端口 。 除 此 之 外 ， 我 们 还 规定 ， 一 个 实例 
一 个 端口 ， 相 信 大 家 从 图 14-3 中 已 经 看 出 来 了 。 


LVS 宿 主机 ， 在 上 面 功能 模块 介绍 的 小 节 中 ， 已 经 介绍 过 了 LVS 的 内 容 ， 我 们 本 着 不 把 所 有 鸡蛋 放 在 一 个 篮子 中 的 原则 ， 一 个 平台 有 多 套 LVS 环 境 ， 这 个 地 方 就 是 让 你 选择 你 这 组 实例 要 选用 哪 组 LVS， 
这 里 选择 的 IP 是 LVS 调 度 Master 的 IP。 


Slave 机 器 IP， 就 是 选择 从 库 所 在 的 DB 服务 器 ， 和 Master 机 器 IP 的 功能 一 样 。 


是 否 开启 主 从 分 离 ， 如 果 这 个 库 的 读 压力 很 大 ， 业 务 方 要 求 开通 读 写 分 离 ， 那 么 需要 把 这 个 勾 选 上 ， 部 署 完 成 之 后 ，LVS 的 读 VIP 就 会 转发 到 从 库 (默认 不 开启 读 写 分 离 的 话 ，LVS 的 写 VIP 和 读 VIP 都 会 
转发 到 主 库 ) 。 另 外 ， 读 写 分 离 功 能 需要 程序 支持 ， 我 们 会 为 业务 方 提供 两 个 地 址 ， 一 个 写 地 址 ， 一 个 读 地 址 ， 估 计 很 多 人 又 要 疑惑 了 ， 市 面 上 有 很 多 开源 的 DBproxy 都 支持 读 写 分 离 ， 为 什么 你 们 不 
呢 。 首 先 ， 我 个 人 觉得 在 程序 上 实现 读 写 分 离 是 最 靠 谱 的 方案 了 ， 没 有 之 一 ， 前 提 是 你 得 想 办 法 让 开发 改 代码 支持 读 写 分 离 ; 其 次 ， 我 们 也 在 测试 调研 各 种 开源 的 DBproxy， 后 期 可 能 会 让 平台 自身 支持 读 
写 分 离 。 


冷 备 机 器 IP， 就 是 上 面 介绍 的 DB 服务 器 的 另 一 类 备份 服务 器 ， 冷 备份 服务 器 上 的 从 库 不 提供 业务 ， 只 是 用 来 备份 ， 想 必 大 家 都 会 说 : “ 哇 ， 你 们 好 土豪 啊 ， 还 有 专门 的 备份 从 库 ”， 好 吧 ， 我 只 能 哈哈 
了 。 


新 增 从 库 ， 如 图 14-4， 线 上 zabbix 这 个 库 现 在 压力 比较 大 ， 主 库 已 经 不 能 承受 住所 有 的 读 写 请 求 ， 现 在 需要 扩展 一 个 从 库 ， 实 例 名 ， 选 择 zabbix 这 个 库 ; 新 从 库 的 |P， 选 择 这 个 从 库 需 要 放 在 哪个 DB 服 
务 器 上 。 


图 14-4 扩容 从 库 


关于 新 添加 的 从 库 是 否 加 入 LVS 只 读 列 表 中 这 个 选项 ， 我 重点 说 明 一 下 。 
首先 ， 我 们 加 从 库 的 原理 是 把 备份 服务 器 的 从 库 停 掉 ， 将 文件 拉 到 你 所 选择 的 新 从 库 的 IP 服 务 器 上 启动 。 


然后 在 主 库 上 加 一 个 主 从 同步 账号 ,授权 给 新 从 库 的 IP， 这 时 ， 新 的 从 库 会 自动 连 主 库 ( 主 从 同步 状态 ， 两 个 yes) ， 然 后 启动 备份 服务 器 上 的 实例 ， 如 果 新 的 从 库 不 能 启动 或 主 从 同步 状态 不 好 ， 那 么 
平台 返回 添加 从 库 失 败 ， 反 之 ,平台 返回 添加 从 库 成 功 。 


注意 


这 里 需要 注意 的 是 平台 不 会 去 判断 新 加 的 从 库 是 否 有 延 时 ， 并 且 新 加 的 从 库 也 不 会 有 账号 信息 ， 所 以 ， 如 果 之 前 没有 开启 过 读 写 分 离 的 库 ， 现 在 要 加 一 个 从 库 开 启 读 写 分 离 的 话 ， 我 们 就 可 以 匀 选 此 选 
项 ， 待 从 库 的 账号 添加 完成 ， 确 认 新 加 的 从 库 没有 延 时 ， 最 后 把 LVS 读 的 地 址 提供 给 业务 方 ; 如 果 线 上 之 前 已 经 有 一 个 库 开 局 了 读 写 分 离 ， 现 在 读 的 压力 大 ， 那 就 需要 扩展 一 个 从 库 ， 这 样 的 场景 下 这 个 选 
项 一 定 不 能 勾 选 。 


2 还 人 


迁 入 ， 就 是 把 平台 之 外 的 库 迁 入 到 平台 管理 中 ， 这 个 平台 一 上 线 ， 我 们 就 经 历 了 一 次 大 迁移 ， 把 将 近 500 多 个 实例 迁移 到 了 这 个 平台 上 ， 历 时 半年 之 久 ， 如 图 14-5 所 示 ， 其 他 选项 和 新 增 实例 一 样 ， 这 
里 就 不 再 阐述 了 ， 下 面 重点 说 一 下 备份 地 址 这 个 选项 。 


从 图 14-5 中 不 难看 出 ， 这 是 一 个 rsync 的 路 径 ，1.1.1.10 是 rsync 服 务 端 机 器 的 IP，MySQL 是 rsync 的 模块 名 称 ，navy_db_2 是 我 们 要 迁移 的 这 个 库 的 目录 ，navy_db_2 是 一 份 可 用 的 从 库 的 文件 ， 什 么 是 
可 用 的 从 库 文件 ， 关 于 这 点 估计 很 多 人 又 会 有 疑惑 ， 下 面 我 用 具体 的 例子 来 说 明 一 下 吧 。 


事先 手动 同步 好 的 rsync 地 址 


僵 疏 9 : bbs 


Lvs 宿主 机 : | 有] 如 二 定义 , 请 本 先 
Lvs 映射 请 口 : LVS 映 射 过 来 的 请 口 


redir 映 射 请 口 : redir 映 射 过 来 的 庙 口 


SlavetsIP : | 加 ] 如 需要 新 定义 ,请 直选 


是 否 开 启 主 从 分 离 : 


各 机 和 [er | nse we 


用 途 : navy 测 试 数据 库 


使 用 人 手机 : 1381380000 


使 用 人 邮箱 : 


图 14-5 迁 入 


例如 ， 需 要 将 navy_db_2 这 个 库 迁 移 到 平台 上 ， 那 么 现在 需要 对 这 个 库 按 照 我 们 相关 的 安装 配置 规范 做 一 个 从 库 ， 放 在 1.1.1.10 上 ， 然 后 给 1.1.1.10 上 配置 rsync 服 务 端 ， 模 块 名 是 MySQL， 路 径 指定 
为 /data/mysql/， 然 后 再 把 这 个 从 库 停 掉 ， 那 么 /data/mysql/navy_db_2 就 是 一 份 可 用 的 从 库 文件 ， 然 后 就 可 以 在 平台 上 迁 入 了 ， 计 入 完成 后 ,需要 在 navy_db_2 这 个 主 库 上 添加 一 个 主 从 同步 的 账号 授权 
给 平台 上 的 主 库 ， 现 在 就 是 A (平台 外 的 主 库 ) ~B (平台 上 的 主 库 ) ~C (平台 上 的 从 库 ) 这 样 的 同步 关系 了 ， 待 程序 把 程序 的 读 写 切 换 到 平台 提供 的 地 址 上 时 ，B 和 A 的 同步 关系 断 开 ， 就 完成 了 
navy_db_2 这 个 库 的 迁移 。 程 序 从 老 地址 切换 到 新 地 址 ， 中 间 有 很 多 细节 问题 ， 在 这 里 就 不 做 过 多 的 说 明了 。 


3. 调 整 


如 图 14-6， 调 整 这 个 模块 包括 从 库 的 下 线 迁 移 、 主 库 的 下 线 迁 移 和 冷 备 库 的 迁移 这 些 内容 ， 从 图 14-6 可 知 ， 冷 备 库 只 能 迁移 和 不 能 下 线 内 容 ， 是 的 ， 我 们 规定 过 ， 只 要 是 线 上 的 实例 必须 要 有 冷 备 库 ， 
因为 备份 操作 就 是 在 冷 备 库 上 进行 的 。 


es Zabbix 


应 用 主机 IP $ 端口 
10.57.65.37 0482 


10576527 可 
10.57.65.26 1048 


图 14-6 DB 实例 调整 


(1) 下 线 从 库 
下 线 从 库 ， 如 图 14-6 所 示 ， 选 择 你 需要 下 线 的 从 库 ， 点 击 删除 即 可 ， 然 后 平台 会 把 这 个 从 库 停 掉 ， 并 且 在 目录 上 加 上 当前 时 间 惟 重 命名 ， 而 非 直接 删除 。 
(2) 迁移 从 库 


如 图 14-7 所 示 ， 大 概 的 迁移 流程 步骤 如 下 。 


图 14-7 ”迁移 从 库 


步骤 1: 选择 待 迁移 的 从 库 。 

步骤 2: 选择 新 的 从 库 所 在 的 DB 服务 器 IP。 
步骤 3: 停 冷 备 库 实例 。 

步骤 4: 推送 冷 备 库 实例 文件 到 新 的 从 库 服 务 器 。 
步骤 5: 启动 冷 备 库 。 


步骤 6: 启动 新 的 从 库 。 


步骤 7: 主 库 上 授权 主 从 同步 账号 给 新 的 从 库 IP。 


步骤 8: 判断 主 从 一 致 性 。 


步骤 9: 判断 老 的 从 库 是 否 在 LVS 读 的 VIP 下 面 ， 如 果 在 则 剔除 。 


步骤 10: 关闭 老 的 从 库 。 


步骤 11: 在 主 库 上 取消 对 老 库 的 主 从 同步 授权 。 


步骤 12: 迁移 完成 。 


(3) 迁移 主 库 


迁移 主 库 即 计划 内 的 迁移 ， 比 如 主 库 所 在 的 DB 服务 器 需要 关机 维护 ， 这 个 时 候 就 需要 做 计划 内 的 迁移 了 ， 当 然 ， 我 们 这 种 迁移 方式 是 需要 业务 中 断 的 ， 不 过 时 间 很 得， 分 钟 级 别 的 ， 大 概 流程 如 下 。 


步骤 1: 选择 待 迁移 的 主 库 点 击 迁移 跳 至 图 14-8。 


图 14-8 迁移 主 库 


步骤 2: 选择 新 主 库 的 DB 服务 器 IP。 


步骤 3: 判断 所 有 从 库 和 主 库 的 主 从 状态 和 一 致 性 。 


步骤 4: 停止 备份 服务 器 的 实例 。 


步骤 5: 推送 冷 备 服务 器 的 数据 到 新 主 库 的 IP。 


步骤 6: 启动 备份 服务 器 的 实例 。 


步骤 7: 启动 新 主 库 的 实例 。 


步骤 8: 老 的 主 库 添 加 主 从 同步 账号 ， 授 权 给 新 的 主 库 。 


步骤 9: 判断 主 从 同步 数据 一 致 性 。 


步骤 10: 把 老 主 库 的 账号 权限 添加 到 新 的 主 库 。 


步骤 11: 在 新 主 库 上 添加 老 的 从 库 的 主 从 同步 账号 。 


步骤 12: 删除 LVS、Redir 到 老 主 库 的 映射 。 


步骤 13: 判断 主 从 同步 数据 一 致 性 。 


步骤 14: 停止 新 的 从 库 ， 删 除 master.info 文 件 。 


步骤 15: 启动 新 的 主 库 。 


步骤 16: 把 老 的 从 库 change master to 到 新 的 主 库 。 


步骤 17: 判断 主 从 同步 数据 一 致 性 。 


步骤 18: 添加 LVS、Redir 到 老 主 库 的 映射 。 


步骤 19: 停 掉 老 的 主 库 并 重 命名 命令 。 


步骤 20: 迁移 完成 。 


(4) 强制 迁移 主 库 


强制 迁移 主 库 即 计划 外 的 迁移 ， 比 如 一 个 库 突然 挂 掉 了 或 底层 的 DB 服务 器 硬件 出 问题 了 ， 短 时 间 内 无 法 恢复 。 我 们 线 上 真 出 现 过 服务 器 主板 挂 掉 的 情况 ， 当 时 就 用 到 了 强制 迁移 主 库 的 功能 ， 如 图 14-9 
所 示 ， 大 概 迁移 流程 如 下 。 


图 14-9 ”强制 迁移 主 库 


在 说 流程 之 前 首先 再 次 强调 一 下 备份 从 库 的 概念 ， 备 份 从 库 就 是 运行 在 冷 备 服务 器 上 的 从 库 ， 不 提供 业务 ， 只 是 用 于 备份 ， 所 有 的 备份 操作 都 是 在 这 个 从 库 上 进行 的 。 


步骤 1: 判断 从 库 和 备份 从 库 同步 主 库 的 位 置 点 哪个 最 新 (Relay_Master_ Log_File、Exec_Master_ Log_Pos) ， 结 果 有 3 种 情况 ， 备 份 从 库 和 普通 从 库 同 步 主 库 的 点 是 一 样 的 、 备 份 从 库 同步 主 库 的 点 
最 新 、 其 中 一 个 普通 从 库 同 步 主 库 的 点 最 新 。 


步骤 2: 如 果 步 又 1 的 结果 是 备份 从 库 和 普通 从 库 同 步 主 库 的 点 是 一 样 的 ， 那 么 随机 找 一 个 从 库 提升 为 主 库 ， 对 备份 从 库 和 其 他 普通 从 库 执行 如 下 的 命令 重新 指 到 新 的 主 库 。 


change master to 

master host="'master ip', 

master User='slave'y 

master password="'123456', 

master 1og file=' 主 库 binlog 的 位 置 '， 
master _ 109 pos= 主 库 binlog 的 Pos 点 7 


步骤 3: 把 故障 主 库 的 账号 权限 添加 的 新 的 主 库 上 。 


步骤 4: 把 故障 主 库 的 LVS、Redir 映 射 删 掉 ， 并 映射 到 新 的 主 库 上 。 


步骤 5: 如 果 步 又 1 的 结果 是 备份 从 库 同步 主 库 的 点 最 新 ， 那 么 把 其 他 所 有 的 普通 从 库 都 停 掉 并 且 把 目录 重 命名 带 上 时 间 戳 ， 用 备份 从 库 的 数据 重新 建立 一 组 主 从 环境 ， 随 机 选择 一 个 旧 从 库 的 地 址 作为 


步骤 6: 把 故障 主 库 的 LVS、Redir 映 射 删 掉 ， 并 映射 到 新 的 主 库 上 。 


步骤 7: 如 果 步 又 1 的 结果 是 其 中 一 个 普通 从 库 同步 主 库 的 点 最 新 ， 那 么 就 以 这 份 从 库 的 数据 为 基础 ， 重 新 做 备份 从 库 。 


步骤 8: 把 这 个 从 库 提升 为 主 库 。 


步骤 9: 把 故障 主 库 的 LVS、Redir 映 射 删 掉 ， 并 映射 到 新 的 主 库 。 


步骤 10: 迁移 完成 。 


(5) 迁移 冷 备 库 


这 个 功能 就 是 迁移 备份 从 库 ， 比 如 备份 DB 服务 器 磁盘 或 1O 快 到 瓶 巴 了 ， 我 们 需要 把 一 部 分 库 迁 移 到 其 他 备份 DB 服务 器 上 时 ， 就 使 用 这 个 功能 。 这 个 功能 也 很 简单 ， 就 是 把 当前 的 数据 库 实例 停止 推送 
到 新 的 备份 DB 服务 器 上 启动 ， 然 后 把 老 的 目录 加 上 时 间 戳 重 命名 就 完成 了 迁移 ， 如 图 14-10 所 示 。 


图 14-10 ”迁移 冷 备 库 


(6) 下 线 主 库 


下 线 主 库 会 把 从 库 、 冷 备 库 还 有 其 他 对 应 的 资源 都 做 下 线 处 理 ， 当 然 ， 这 个 下 线 只 是 下 线 而 已 ， 不 做 删除 操作 ， 如 图 14-11 所 示 的 ， 是 操作 日 志 ， 我 们 可 以 看 到 一 些 具 体 的 信息 ， 这 些 信息 都 是 入 库 
的 ,方便 后 续 的 资源 回收 分 析 及 审计 使 用 。 


业务 名 称 navy56 
任务 名 称 ， 删除 一 组 实例 
任务 描述 ”删除 一 组 实例 , 主 库 : 10.10 .有 有 ?从 库 : lu'10.1 10.10. Ng 


时 间 

2015-08-26 19:43:28 
2015-08-26 19:43:30 
2015-08-26 19:43:30 


2015-08-26 19:43:35 
2015-08-26 19:43:36 


2015-08-26 19:43:36 
2015-08-26 19:43:45 


2015-08-26 19:43:46 


2015-08-26 19:43:46 
2015-08-26 19:43:46 


器 只 器 呈 器 吴 丘 吴 吴 笋 


图 14-11 下 线 主 库 


4 权限 管理 


这 部 分 的 主 库 功 能 包括 新 加 账号 、 删 除 账号 、 修 改 密码 、 修 改 权限 等 ， 有 了 这 个 功能 再 也 不 用 登录 MySQL 操 作 了 ， 是 不 是 很 方便 呢 ， 下 面 就 为 大 家 依次 曝光 功能 点 ， 如 图 14-12 所 示 : 


me 


授权 用 户 授权 ip 权限 
10101997 | slave 10101996 


MN save 10101197 
10101997 | zabbix pro 10101528 


10101996 zabbix sel 101015.28 Ey 


图 14-12 ”权限 管理 


(1) 新 增 账号 


新 增 账号 ， 搜 索 你 要 加 账号 的 库 ， 比 如 我 们 需要 给 zabbix 这 个 库 加 一 个 账号 ， 单 击 图 14-12 中 的 “新 增 ” 按 钮 进入 到 图 14-13， 主 机 地 址 就 是 你 需要 给 哪个 DB 服务 器 的 库 添 加 账号 ; 授权 用 户 就 是 你 要 
加 的 账号 名 称 ; 授权 地 址 就 是 你 授权 哪个 IP 可 以 通过 这 个 账号 访问 这 个 库 ， 权 限 就 是 你 需要 开 什么 样 的 权限 给 这 个 账号 ， 这 里 我 们 把 MySQL 常 用 的 权限 都 放 在 列表 里 面 ， 你 只 需要 把 你 需要 开放 的 权限 从 左 
边 拖 到 右边 即 可 ; 数据 库 就 是 你 授权 这 个 账号 访问 哪个 库 ; 表 就 是 你 要 授权 哪个 表 给 这 个 账号 。 


10.10 人 一 


navy_sel 


8.8.8.8 


INSERT 
SHOW VIEW 
SUPER 
UPDATE 


Zabbix 


图 14-13 ”新 增 授权 


(2) 修改 已 有 账号 密码 


比如 我 们 想 修改 刚才 新 的 账号 navy_sel 的 密码 ， 那 么 我 们 单 击 图 14-12 中 的 “修改 : 密码 按钮 跳 转 至 图 14-14， 输 入 授权 账号 navy_sel， 输 入 授权 地 址 8.8.8.8， 输 入 新 的 密码 ， 单 击 ” 确 认 修改 “， 即 完 


成 了 密码 修改 。 


图 14-14 ”修改 密码 


(3) 修改 权限 


比如 刚才 开通 的 navy_sel 这 个 账号 需要 create 权 限 ， 那 么 我 们 单 击 图 14-12 中 的 “修改 ”按钮 跳 转 至 图 14-15， 从 权限 列表 里 


把 create 权 限 拖 至 右边 生 


aE 击 “ 确 认 修 改 ”， 


即 完成 了 权限 修改 ,立即 生 


SELECT 


INSERIT 
CREATE RODUTINIW < 
DROP 


zabbix 


图 14-15 ”修改 权限 


14.4 ”后 期 功能 展望 


至 此 ， 整 个 平台 建设 相关 的 内 容 和 平台 的 功能 已 经 基本 介绍 完毕 ， 下 面 来 说 一 下 后 期 关于 平台 的 重点 规划 。 


1. 集 成 慢 日 志 分 析 平台 


关于 MySQL 的 慢 日 志 ， 我 们 是 用 Flume+Elasticsearch+Kafka 编 写 的 一 个 分 析 展示 平台 ， 后 期 会 集成 到 数据 库 平台 ， 并 开放 给 开发 人 员 ， 对 慢 sql 最 多 的 库 进 行 全 公司 排名 之 类 的 活动 ， 促 进 开发 人 员 
主动 优化 sql。 


2. 账 号 统一 认证 


目前 平台 登录 所 用 的 是 一 个 本 地 账户 ， 并 且 没 有 权限 控制 ， 相 当 于 一 个 admin， 只 有 得 到 账号 密码 才 可 以 登录 ， 非 常 的 不 安全 ， 后 期 会 接 入 公司 的 ksso 认 证 ， 登 录 必须 通过 ksso 认 证 ， 不 同 的 账号 拥有 
不 同 的 权限 ， 比 如 DBA 登 录 后 可 以 查看 和 操作 ， 而 开发 人 员 登 录 后 只 能 看 到 自己 所 负责 的 库 的 相关 信息 ， 不 可 以 做 其 他 的 任何 操作 ， 等 等 。 


Wu 


. 重 写 主 库 迁 移 逻 辑 (使 用 MHA) 


上 文 已 经 介绍 过 我 们 的 平台 在 故障 切换 和 主 库 迁 移 方面 的 相关 内 容 ， 大 家 也 已 经 看 到 了 ， 流 程 比较 复杂 并 且 过 度 依 赖 平台 ， 库 越 大 迁移 完成 的 时 间 就 越久 ， 迁 移 一 个 T 级 别 的 库 基 本 上 需要 一 个 小 时 以 上 
的 时 间 ， 简 直 无 法 接受 ， 后 期 我 们 打算 把 底层 故障 切换 这 块 结合 MHA 重 新 实现 。 之 前 也 大 概 了 解 过 MHA，MHA 故 障 切 换 是 可 以 通过 漂 VIP 来 实现 的 ， 即 将 VIP 绑 定 在 主 库 上 ， 当 主 库 不 可 用 时 ，MHA 启 动 
切换 策略 ， 选 取 一 个 从 库 提升 为 主 库 ， 并 尽 可 能 地 通过 SSH 获 取 补 全 故障 主 库 的 binlog， 然 后 把 VIP 漂移 到 新 的 主 库 上 ， 这 与 我 们 平台 现在 的 单 VIP、 多 端口 这 种 架构 的 差别 有 点 大 ， 如 何 把 MHA 和 平台 现 有 
的 架构 很 好 地 结合 起 来 ， 对 我 们 来 说 是 一 个 很 大 的 挑战 。 


14.5 小 结 


到 此 ， 本 章 已 基本 完结 ， 本 文 介绍 了 我 公司 MySQL 的 一 些 规范 ， 从 安装 到 配置 ， 再 到 权限 管理 ， 也 介绍 了 我 们 


动 化 、 平 台 化 所 寻 


过 的 路 和 一 些 心得 ， 有 很 多 朋友 都 问 过 我 ， 你 们 的 数据 库 平台 是 怎么 


做 的 ， 都 有 什么 功能 等 问题 。 我 个 人 觉得 ， 每 家 公司 的 情况 均 不 一 样 ， 你 是 DBA， 你 日 常 工作 都 需要 做 什么 ， 你 希望 有 一 个 什么 样 的 平台 来 解决 你 的 哪些 痛 点 ， 自 己 的 需求 只 有 自己 最 清楚 ， 当 你 把 你 的 需 
求 梳理 清楚 ， 然 后 结合 公司 的 实际 使 用 情况 ， 比 如 架构 、 规 范 等 ， 你 才能 知道 你 需要 的 究竟 是 什么 了 。 本 人 水 平 有 限 ， 文 中 对 于 知识 点 的 解释 及 观点 如 有 不 正确 或 不 合理 的 地 方 ， 在 此 虚心 接受 广大 读者 的 


建议 或 意见 ， 谢 谢 。 


附录 A 求职 者 与 面试 官 


作者 简介 


趋 曼 ，RHCA/RHCSS/MCITP， 熟 悉 x86 平 台大 础 架构 系统 的 建设 、 管 理 及 运 维 工作 ， 现 就 职 于 京东 金融 


网 银 在 线 ， 担 任 支付 产品 技术 部 高 级 系统 工程 师 一 职 ; 9 年 以 上 互联 网 金融 、 电 信 、 政 府 等 多 


领域 背景 的 从 业 资 历 ， 千 万 级 大 型 项 目 经 验 ， 优 秀 的 文档 撰写 能 力 及 沟通 技巧 曾 参与 中 国 国家 电子 政务 多 项 重点 工程 的 安全 信任 体系 建设 工作 ， 曾 为 中 移动 、 国 航 等 大 型 企业 提供 运 维 技术 支持 ; 喜欢 从 


事 新 技术 研究 、 优 化 方案 等 工作 。 工 作 前 倾向 于 制定 有 计划 且 详 细 的 执行 方案 ， 擅 长 处 理 远 期 规划 设计 类 事件 。 善 于 在 工作 实践 中 分 析 问题 、 总 


技术 的 精 研 和 业务 分 析 ， 帮 助 企业 定制 更 加 实际 高 效 的 解决 方案 。 


结 经 验 ， 属 于 那 种 改进 优化 能 力 类 型 的 工作 者 。 致 力 于 对 IT 


我 曾 在 两 家 公司 担任 过 面试 官 一 职 ， 在 三 年 多 的 面试 经 历 中 参与 过 上 百 场 的 候选 人 面试 。 与 传统 的 HR 面试 经 类 型 的 文章 不 同 ， 我 将 以 求职 者 和 面试 官 的 双重 身份 ， 以 双方 互 视 的 独特 视角 ， 在 为 读者 深 


度 剖 析 问 题 的 同时 ， 与 读者 分 享 自己 对 职业 发 展 和 面试 求职 的 一 些 观点 与 心得 。 


每 个 企业 都 渴望 招 到 优秀 的 人 才 ， 而 进入 一 家 知名 公司 工作 也 是 每 个 求职 者 追寻 的 目标 。 然 而 理想 和 现实 似乎 总 是 有 着 很 大 的 落差 ， 一 方面 ， 企 业 找 不 到 合适 的 人 选 ， 另 一 方面 求职 者 也 总 是 在 面试 当 


中 失利 。 这 究竟 是 什么 原因 呢 ? 我 想 这 个 问题 是 值得 大 家 去 反思 的 。 多 年 来 我 以 求职 者 或 面试 官 的 身份 参加 过 很 多 知名 企业 的 


行 专业 的 透彻 分 析 ， 但 却 可 以 从 技术 人 员 的 别 样 角度 去 观察 这 两 种 关系 微妙 的 角色 。 


我 是 一 个 善于 在 工作 实践 中 分 析 问 题 、 总 结 经 验 的 人 ， 属 于 那 种 改进 优化 能 力 类 型 的 工作 者 。 多 年 来 我 一 直 


会 回忆 每 一 个 环节 的 全 过 程 ， 去 思索 哪里 值得 肯定 ， 哪 里 做 得 不 好 。 


试 官 又 是 否 树立 了 正确 的 面试 观 ” 哪 些 糟糕 的 表现 会 引起 求职 者 的 反感 与 抵触 情绪 呢 ? 


正 所 谓 “ 不 知 庐山 真面目 ， 只 缘 身 在 此 山中 ”。 只 有 跳出 圈 外 ， 站 在 对 方 的 角度 考虑 ， 才 能 发 现 很 多 意 想 不 到 的 细节 问题 。 当 然 凡 叶 


那么 作为 求职 者 ， 如 何 做 好 职业 规划 ? 如 何 撰写 一 份 吸引 人 的 简历 呢 ?” 哪 些 问 题 会 导致 面试 失败 呢 ? 是 否 做 好 了 加 入 一 个 新 团 


队 的 准备 ? 作为 面试 官 ， 如 何 发 布 招聘 启事 ， 如 何 识别 合适 的 求职 者 ? 面 


面试 ， 在 两 家 公司 有 过 大 约 三 年 的 面试 官 经 历 。 我 虽然 不 是 HR， 无 法 对 面试 进 


保持 着 一 个 好 习惯 ， 那 就 是 每 完成 一 项 工作 之 后 ， 都 会 反思 和 自省 。 每 一 轮 面 试 下 来 ， 我 都 


都 有 了 两面性， 人们 对 世界 的 认 知 和 理解 ， 都 深 受 自身 生存 环境 与 经 


历 的 影响 ， 不 可 能 产生 完全 一 致 的 观点 。 所 以 在 这 里 我 想 强 调 两 点 : 第 一 ， 这 不 是 一 篇 教程 ， 没 有 对 错 之 分 ; 第 二 ， 本 文 所 讲述 的 案例 均 来 自 于 多 个 不 同 场景 的 描述 ， 不 针对 任何 企业 或 个 人 ， 请 广大 读者 
切 勿 对 号 入 座 。 
A.1 求职 者 篇 


A.1.1 职业 规划 从 入 职 开 始 


说 到 职业 规划 ， 可 能 是 很 多 人 非常 困惑 的 一 个 问题 。 很 多 人 其 实 都 缺乏 这 方面 的 意识 ， 根 本 没有 认真 地 考虑 过 


发 展 几 年 后 才能 定位 ， 这 些 观念 都 是 错误 的 。 职 业 规 划 是 一 项 自始至终 都 在 进行 的 动态 工作 ， 在 进入 职场 前 就 需 


， 存 亡 之 道 ， 不 可 不 察 啊 。 


福 。 怎 么 能 够 不 认真 对 待 ? 怎么 能 够 依赖 别人 来 指明 道路 呢 ? 职 业 发 展 和 婚姻 同等 重要 ， 都 是 人 生 大 对 


自己 的 职业 规划 。 他 们 希望 参考 别人 的 意见 来 确定 自己 未 来 要 走 的 道路 ， 或 者 认为 应 当先 
开始 准备 了 。 对 于 普通 人 来 讲 ， 职 业 收 入 是 你 的 重要 经 济 来 源 ， 关 系 到 生活 尊严 与 家 庭 幸 


传统 相声 《小 神仙 》 里 面 有 这 样 一 个 片段 : 讲 的 是 一 个 人 丢 了 东西 ， 找 了 一 位 失明 的 先生 给 他 占 算 ， 祈 求 能 够 找 回 失物 。 逗 腿 的 最 后 就 讽刺 说 ，“ 你 睁 着 眼睛 都 找 不 着 ， 他 能 给 你 找 得 回来 么 ?”” 昌 说 
是 个 笑话 ， 但 在 生活 中 ， 此 类 现象 却 比 比 皆 是 。 我 发 现 很 多 刚 入 行 的 新 人 总 喜欢 问 这 样 的 问题 :A 职业 和 B 职 业 ， 我 到 底 应 该 选择 哪 一 个 ? 


作为 新 人 ， 对 职业 的 选择 有 困惑 是 正常 的 ， 但 不 应 该 盲目 地 跟从 他 人 的 建议 ， 更 不 可 让 他 人 为 你 设计 什么 发 
求 ， 再 结合 自身 的 性 格 和 优 缺 点 来 选择 发 展 道路 。 请 记 住 ， 不 管 走 什么 路 都 一 定 要 自己 去 决断 。 因 为 只 有 你 最 了 解 


的 呢 ? 一句 话 ， 你 自己 就 是 你 最 好 的 职业 规划 师 。 


当然 只 具备 意识 是 远 远 不 够 的 ， 还 需要 明确 的 计划 和 切实 的 行动 。 


有 一 个 小 伙 子 参加 我 的 面试 ， 基 础 知识 很 差 。 对 于 新 人 ， 我 并 不 是 十 分 计较 技术 方面 的 落差 。 我 问 了 他 一 个 问题 : 如 果 你 加 入 团 


自己 。 如 果 你 迷 届 到 连 


展 道 路 。 正 确 的 做 法 应 当 是 : 先 向 业内 人 士 了 解 每 个 行业 的 发 展 趋势 、 职 业 特 点 和 技能 
自己 都 不 了 解 ， 那 么 别人 指出 的 道路 又 怎么 能 够 确保 就 一 定 是 正确 


队 ， 愿 意 做 多 久 ” 有 什么 职业 规划 ”他 满怀 激情 地 告诉 我 ， 要 在 一 年 内 


成 为 团队 的 核心 ， 五 年 内 成 为 架构 师 ， 第 十 年 成 为 技术 总 监 。 我 继续 提问 : 团队 核心 需要 掌握 哪些 技能 ”你 打算 如 何 实 现 ” 此 时 ， 他 沉默 了 。 从 他 脸 上 不 自信 的 表情 可 以 看 得 出 ， 他 对 自己 的 目标 定位 和 实 


现 方法 根本 就 不 了 解 。 职 业 规 划 不 是 喊 口号 ， 和 商业 企划 一 样 ， 要 有 详尽 的 方案 才 行 。 这 项 工作 至 少 要 分 成 这 几 个 部 分 : 定位 目标 、 找 出 差距 、 设 定 计划 、 付 诸 实施 。 


体 化 。 我 从 事 IT 行 业 近 十 年 ， 在 这 个 过 程 中 始终 思考 着 自己 


俗话 说 “ 男 怕 入 错 行 ， 女 怕 嫁 错 郎 ”。 制 定 一 个 长 远 的 职业 发 展 方向 是 非常 有 必要 的 。 请 注意 ， 这 里 只 是 确定 职业 发 


展 方 向 ， 不 需要 过 于 


的 职业 发 展 ,分 析 自 己 的 不 足 之 处 并 加 以 改进 ， 不 断 地 修正 自己 所 走 过 的 道路 。 就 像 松下 幸之助 的 250 年 计划 无 法 帮助 松下 走出 困境 一 样 ， 我 们 


验 和 阅历 的 不 断 提 升 ， 你 才能 够 深入 地 认 知 自己 ， 正 确 地 解读 行业 。 这 时 候 ， 位 于 你 前 方 的 发 展 道路 才 


在 确立 了 大 方向 之 后 ， 你 还 需要 制定 几 个 短期 的 目标 作为 支撑 。 不 用 担心 它们 和 你 的 终极 目标 是 否 


匹配 。 


也 清晰 起 来 。 


同样 也 不 可 能 一 开始 就 看 得 那么 远 ， 那 么 准确 。 只 有 随 着 经 


为 以 你 现 有 的 能 力 距离 实现 终极 目标 的 要 求 还 差 得 很 远 ， 所 以 不 管 做 什么 都 不 会 是 无 用 功 。 


比如 你 想到 南极 洲 去 看 企 啤 ， 不 管 你 是 造 飞机 舰 船 ， 还 是 买 羽 绒 服 ， 或 者 干脆 去 挣 钱 ， 其 实 都 是 对 的 。 当 你 完成 了 这 些 短期 目标 之 后 ， 就 可 以 依靠 这 些 新 技能 去 进一步 发 展 。 短 期 目标 的 制定 一 定 要 切实 可 


行 ， 目 标 太 多 或 难度 太 大 都 是 错误 的 。 


然后 你 要 搞 清楚 ， 现 有 条 件 与 目标 实现 所 需要 的 条 件 这 两 者 之 间 的 差距 是 什么 ? 正 所 谓 “ 知 己 知 彼 ， 百 战 不 葡 ”。 你 需要 制定 实现 目标 的 详细 计划 、 时 间 进 度 表 和 最 终 验收 标准 。 你 可 以 不 断 地 对 目标 
进行 细 化 和 分 解 。 使 用 “ 脑 图 软件 ”是 一 个 不 错 的 选择 ， 它 可 以 帮助 你 把 一 个 目标 拆 解 成 多 个 小 任务 。 你 可 以 计划 每 周 去 完成 一 个 小 任务 。 关 于 时 间 进 度 表 可 以 使 用 微软 的 Project 软 件 去 做 WBS (Work 


Breakdown Structure， 工 作 分 解 结构 ) 。 对 于 新 人 ， 可 以 求助 于 有 经 验 的 前 辈 帮助 你 进行 完善 。 


最 后 就 是 Just do it 一 一 付 诸 行动 。 在 这 个 过 程 中 ， 你 要 不 断 地 审视 工作 进度 和 执行 效果 ， 有 问题 及 时 修正 。 所 谓 做 比 说 强 ， 聊 胜 于 无 。 相 比 那些 夸 夸 其 谈 的 “立志 人 ” ， 我 更 欣赏 行动 迅速 的 “ 践 行 


者 ”。 要 知道 ， 事 情 只 要 做 起 来 ， 那 么 你 就 已 经 开始 在 通 往 成 功 的 道路 上 前 行 了 。 


A.1.2 ”如 何 写 简历 


作为 面试 官 ， 第 一 步 工 作 就 是 简历 筛选 。 一 般 我 会 花费 两 分 钟 左 右 的 时 间 去 阅读 一 份 简历 并 加 以 评估 。 下 面 这 种 简历 的 内 容 形式 和 排列 顺序 是 我 比较 推荐 的 。 


:求职 意向 。 
“ 个 人 基本 信息 (涵盖 从 业 时 间 ， 行 业 背 景 的 描述 ) 。 
“ 个 人 简介 (涵盖 对 技术 、 管 理 、 优 势 等 情况 的 高 度 汇总 ) 。 


“ 工作 经 历 ( 时 间 按 照 倒序 排列 ， 将 主要 的 工作 业绩 以 数据 的 形式 体现 出 来 ) 。 


一 般 求 职 网 站 在 填写 工作 经 历时 ， 都 是 以 公司 作为 划分 单位 的 ， 如 图 A-1 所 示 。 我 认为 这 种 划分 方式 过 于 粗 久 。 因 为 你 在 这 家 公司 的 所 有 业绩 都 只 能 填写 在 同一 个 表单 之 中 ， 而 表单 的 字数 是 有 限制 
的 。 有 些 求职 者 长 期 效力 于 一 家 公司 ， 成 绩 裴 然 。 如 果 因为 受到 字数 限制 而 影响 了 自身 展示 那 将 是 不 公平 的 。 另 外 这 种 方式 缺乏 细 粒 度 的 时 间 划 分 ， 只 有 工作 量 没有 时 间 点 ， 也 是 很 大 的 浆 病 。 因 为 这 些 成 
绩 也 许 都 是 前 期 产生 的 ， 而 后 期 可 能 只 是 业绩 平平 ， 所 以 很 难 反映 出 求职 者 真正 的 工作 状态 。 在 众多 求职 网 站 当中 ， 我 最 喜欢 的 就 是 猎 聘 网 。 猫 聘 网 在 创建 简历 时 ， 针 对 每 一 家 公司 ， 会 有 一 个 “添加 本 公 
司 其 他 任职 ”的 按钮 ， 可 以 根据 时 间 和 职位 进行 二 次 分 类 ， 如 图 A-2 所 示 。 这 就 很 好 地 解决 了 上 述 问 题 。 如 果 求 职 者 在 这 家 公司 有 职位 晋升 的 情况 ， 还 可 以 据 此 观察 求职 者 的 职业 发 展 历程 。 目 前 很 少 有 求 
职 网 站 效仿 这 种 做 法 ， 该 项 功能 对 于 在 一 家 公司 服务 期 超过 五 年 的 求职 者 来 说 是 非常 有 必要 的 。 
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+ 添加 本 公司 其 他 任职 


图 A-2 猎 聘 网 的 模板 


A.1.3 面试 前 的 观察 与 考量 


首先 我 要 在 这 里 纠正 一 个 错误 的 观点 。 面 试 不 是 企业 对 求职 者 单方 面 的 考核 ， 而 是 一 次 彼此 都 要 接受 检验 的 双向 选择 。 当 然 ， 我 们 不 得 不 承认 ， 在 面试 中 求职 者 往往 处 于 不 对 等 的 弱势 一 方 。 但 求职 
在 收 到 offer 之 后 ， 同 样 也 有 反 向 选择 的 权利 。 然 而 是 否 要 加 入 一 家 公司 ， 也 许 不 一 定 要 在 收 到 offer 之 后 才 决 定 ， 在 一 开始 面试 之 前 ， 你 就 可 以 有 所 观察 。 


不 管 这 家 公司 的 知名 度 如 何 ， 你 最 好 都 要 先 去 了 解 一 下 它 的 背景 和 基本 情况 ， 包 括 行 业 地 位 、 发 展 趋 势 、 企 业 文化 、 业界 评论 等 。 另 外 ， 办 公 地 点 也 要 事先 了 解 清楚 。 我 个 人 认为 如 果 有 可 能 的 话 ， 最 
好 还 是 能 够 进 一 家 大 中 型 企业 。 一 个 刚 入 行 的 新 人 就 像 一 张 白 纸 ， 第 一 家 公司 会 对 他 们 产生 比较 大 的 影响 。 大 公司 做 事情 相对 比较 规范 ， 对 新 人 的 影响 还 是 比较 积极 的 。 其 次 也 可 以 考虑 创业 公司 ， 相 对 于 
小 公司 ， 创 业 公司 也 许 能 学 到 更 多 的 东西 。 但 是 关于 创业 公司 ， 我 只 建议 工作 不 足 两 年 的 新 人 去 考虑 。 这 个 问题 我 会 在 后 文中 详细 分 析 。 总 而 言 之 ， 我 们 更 愿意 投身 于 一 个 做 事 规范 ， 积 极 向 上 ， 有 发 展 前 
途 的 公司 。 


在 正式 进入 面试 环节 之 前 ， 你 最 好 留意 一 下 这 家 公司 的 办 公 环 境 、 前 台 员 工 的 职业 形象 及 待人 接 物 ， 等 等 。 如 果 路 过 办 公 室 ， 还 可 以 观察 一 下 公司 员工 的 工作 状态 。 他 们 是 快乐 奋进 的 ? 是 疫 惫 痛苦 
的 ”还 是 百 无 聊 赖 的 ”员工 的 形象 和 工作 状态 是 我 判断 一 家 公司 优 劣 的 基本 依据 。 


另外 ， 我 会 计算 一 下 我 的 等 待 时 间 。 因 为 等 待 时 间 是 和 重视 程度 成 反比 的 。 迟 到 是 求职 者 的 大 忌 ， 但 有 些 面试 官 反而 却 不 够 守 时 ， 让 候选 人 等 竺 很久， 实在 是 非常 的 不 受 。 虽 然 运 维 是 个 比较 特殊 的 行 
业 ， 但 既然 是 事先 约 好 的 会 晤 就 应 该 做 好 安排 。 除 非 真 有 特殊 情况 ， 否 则 没有 理由 让 候选 人 等 太 久 。 如 果 技术 环节 的 面试 官 迟到 并 告知 你 是 因为 在 处 理 突 发 故障 ， 那 么 有 经 验 的 候选 人 会 就 此 发 现 一 个 问 
题 ， 要 面试 官 去 处 理 临 时 故障 ， 可 能 存在 两 种 原因 : @@ 这 个 岗位 严重 缺 人 ， 目 前 可 能 只 有 这 位 面试 官 一 个 人 ; @ 这 个 团队 的 技术 能 力 有 问题 ， 其 他 成 员 无 法 很 好 地 胜任 这 个 岗位 的 工作 ， 表 明 团 队 成 员 技术 
落差 大 ， 人 员 存 在 单 点 。 接 下 来 你 可 能 就 要 多 留心 了 。 你 一 定 要 搞 清楚 这 种 情况 已 经 持续 了 多 久 。 如 果 长 期 没有 得 到 改善 ， 则 说 明 加 入 这 个 团队 将 会 有 很 大 的 风险 。 


在 反 向 提问 的 环节 ， 求 职 者 还 应 该 更 多 地 了 解 工作 环境 、 团 队 情 况 、 职 位 发 展 等 问题 。 例 如 可 以 提出 如 下 一 些 问题 : 


“ 请 问 我 们 最 近 两 年 的 发 展 目标 是 什么 ? 要 做 到 怎样 的 程度 ? 


“ 我 能 了 解 一 下 我 们 团队 近 两 年 的 发 展 规模 是 怎样 的 么 ?未 来 我 们 还 需要 哪些 成 员 加 盟 ? 


“ 请 问 您 认为 目前 我 们 团队 所 面临 的 最 大 需求 是 什么 ? 
“ 请 问 您 最 欣赏 的 员工 应 该 是 怎样 的 ? 


“ 请 问 目前 我 应 聘 的 这 个 岗位 未 来 三 年 的 发 展 方向 是 什么 ? 如 果 该 岗位 能 够 进一步 发 展 ， 还 需要 哪些 要 求 呢 ? 


A.1.4” 候 ; 先 人 为 何 面 试 失利 
1. 搞 不 清 状 况 


作为 面试 官 ， 我 遇 到 过 两 次 候选 人 向 我 询问 薪酬 问题 的 情况 。 首 先 我 只 负责 技术 考核 ， 后 面 还 有 总 监 和 HR 的 环节 。 和 我 谈 薪水 既 不 合 时宜 ， 恐 怕 也 找 错 了 对 象 。 尤 其 是 在 候选 人 还 没有 获得 认可 的 情况 


下 ， 此 举 无 异 于 自杀 。 几 乎 所 有 的 面试 官 ， 尤 其 是 HR 的 MM 对 此 是 非常 反感 的 。 我 想 提示 所 有 的 求职 者 : 如 果 面试 官 在 交谈 中 主动 和 你 谈 及 薪酬 问题 ， 说 明 你 已 经 成 功 了 90%， 但 要 是 你 自己 率先 触 碰 这 个 
敏感 话题 ， 那 么 肯定 不 会 有 什么 好 结果 。 


2. 狐 假 虎威 的 个 人 介绍 


这 类 候选 人 在 描述 工作 经 历时 总 喜欢 把 主语 设 定 成 “我 们 ”。 例 如 ， 我 们 团队 在 某 项 目 中 开发 了 x x 软件 ， 建 设 了 x x 平台 ， 完 成 了 x x 工作 等 。 请 注意 ， 这 是 面试 而 非 招 标 。 我 希望 了 解 候 选 人 究竟 做 出 
了 哪些 成 绩 ， 而 不 是 他 的 团队 和 公司 。 我 在 研读 了 一 些 心理 学 的 书籍 之 后 ， 通 过 对 面试 者 面部 表情 的 观察 发 现 : 这 些 候选 人 ， 在 使 用 “我 们 ”作为 主语 时 言语 激扬 ， 显 得 比较 兴奋 。 而 当 他 们 被 要 求 只 描述 
自己 的 工作 业绩 时 ， 也 就 是 把 主语 更 换 成 “我 ”时 ， 立 刻 就 会 显得 底气 不 足 ， 同 时 语 速 下 降 ， 眼 神 也 开始 变 得 黯淡 。 


3. 基 于 私有 化 产品 的 工作 经 历 


的 技术 ， 而 非 简单 


加 


我 经 常会 在 简历 里 面 看 到 关于 私有 化 产品 的 描述 。 对 于 私有 化 产品 ， 如 果 你 做 的 是 私有 化 产品 研发 ， 我 会 觉得 很 不 错 。 但 如 果 只 是 私有 化 产品 运 维 ， 我 希望 对 方 能 更 加 了 解 底 
的 手册 操作 。 


4. 长 期 重复 性 基础 工作 ， 技 术 深 度 不 足 


我 见 过 很 多 工作 经 历 超过 七 年 的 做 产品 实施 类 的 工程 师 。 他 们 的 确 接触 过 很 多 主流 的 软 硬 件 产品 ， 但 其 水 平 只 停留 在 ICM 层 级 。ICM 这 个 名 词 来 源 于 VMware 的 认证 课程 ， 是 Install 
Configuration&Management 的 缩写 。 他 们 的 任务 就 是 完成 产品 安装 配置 的 交付 工作 。 他 们 接触 过 的 产品 非常 多 ， 但 对 其 深层 次 的 技术 并 不 十 分 了 解 ， 自 身 更 是 缺乏 大 规模 运 维 的 实践 经 验 。 我 对 他 们 多 
来 一 直 只 从 事 着 一 项 重复 性 的 劳动 深 感 忧虑 和 忱 惜 。 此 类 工作 毫 无 技术 壁垒 ， 很 容易 就 会 被 用 工 成 本 更 低 的 人 所 接替。 


5. 动 力 不 足 ， 执 行 力 差 


工作 意愿 和 学 习 动 力 不 足 ， 或 者 是 执行 力 差 的 候选 人 ， 即 便 技术 环节 勉强 过 关 ， 最 终 也 无 法 通过 部 门 总 监 的 面试 。 没 有 工作 热情 、 缺 乏 输出 效率 的 人 ， 就 像 是 一 只 大 电阻 ， 地 消耗 着 能 源 ， 有 效 功 
率 却 很 低 。 聘 请 这 样 的 人 来 工作 ， 不 但 带 来 不 了 多 少 价值 ， 而 且 这 种 坏 风气 还 会 在 团队 里 传染 开 来 ， 影 响 士气 。 这 类 候选 人 通常 都 是 来 混 日 子 和 寻 开 心 的 ， 他 们 的 工作 目的 只 是 为 了 进入 一 个 带 光环 的 平台 
或 是 更 换 一 个 安逸 的 环境 而 已 ， 我 在 他 们 眼中 看 不 到 进取 的 目光 ， 更 多 的 是 迷茫 和 麻木 ， 言 谈话 语 中 已 经 对 运 维 工作 没有 了 激情 。 


【案例 分 享 】C 君 ， 从 业 三 年 ， 传 统 行业 ， 小 型 机 工程 师 ， 和 希望 到 互联 网 行业 发 展 。 
面试 官 : 你 接触 过 哪些 开源 的 产品 ? 

候选 人 : 主要 关注 过 OpenStack 的 一 些 技 术 。 

接 下 来 面试 官 就 OpenStack 的 体系 架构 及 重要 模块 的 工作 实现 方式 等 对 候选 人 进行 了 技术 考核 ， 发 现 对 方 对 此 知之 甚 少 。 
面试 官 : 你 从 什么 时 候 有 了 想 进入 互联 网 的 想法 ? 

候选 人 : 大 概 是 半年 之 前 有 了 这 样 的 想法 。 

面试 官 : 你 现在 所 从 事 的 工作 ， 每 天 的 工作 量 是 多 少 ? 


候选 人 : 现在 的 工作 不 是 很 忙碌 ， 每 天 大 概 有 两 三 个 小 时 左右 的 空闲 时间。 


【案例 点 评 】 到 此 为 止 ， 我 想 候选 人 已 经 把 他 最 后 的 机 会 都 浪费 掉 了 。 足 足 半 年 ， 每 天 两 到 三 个 小 时 的 空余 时 间 ， 如 果 认真 学 习 应 该 也 已 经 小 有 成 绩 了 ， 所 以 我 是 不 太 看 好 那些 光 说 不 练 的 人 。 


6. 可 靠 性 差 ， 根 本 不 值得 信任 的 人 


打 网 游 的 朋友 都 知道 一 句 话 : “不 怕 强 大 的 对 手 ， 就 怕 坑 人 的 队友 。” 就 像 没 人 愿意 用 一 个 可 靠 性 差 的 软件 一 样 ， 与 不 可 靠 的 人 共事 最 终 会 山 了 整个 团队 。 下 面 这 些 人 都 是 团队 的 大 尽 。 


“ 做 事 随 意 性 强 、 不 遵守 已 有 规章 制度 ， 工 作 缺 乏 规范 性 的 人 。 
“ 凡事 赁 直觉 做 ， 缺 乏 细致 分 析 ， 考 虑 问题 不 周全 的 人 。 

“ 工作 不 认真 ， 喜 欢 糊 弄 ， 抱 有 “60 分 万 岁 ” 主 义 的 人 。 

“ 责任 心 差 ， 做 事 毛 躁 ， 对 生产 环境 缺乏 教 展 心 的 人 。 

: 自我 意识 太 强 ， 无 法 融入 团队 的 人 。 

“ 执行 力 差 ， 工 作 效 率 低下 ， 光 说 不 练 的 人 ， 

: 缺乏 担当 和 大 局 观 的 人 。 

“ 不 喜欢 做 事 ， 整 天 只 会 抱怨 或 到 处 搬 弄 是 非 的 人 。 

【案例 分 享 】 某 公司 招聘 部 门 经 理 ， 目 前 只 有 两 名 候选 人 。 
S 君 ， 从 业 八 年 ， 效 力 过 四 家 公司 ， 现 任职 革 公 司 部 门 经 理 。 
公司 任职 (年) ”担任 职务 

4th 0.5 部 门 经 理 岗 (有 带 团队 经 验 ) 

31d 2.5 高 级 工程 师 (有 带 团队 经 验 ) 

2nd 2.5 高 级 工程 师 

1st2.5 中 级 工程 师 

L 君 ， 从 业 八 年 ， 效 力 过 四 家 公司 ， 现 任职 菜 公 司 资深 工程 师 。 
公司 任职 (年 ) ”担任 职务 

4th 3.5 资深 工程 师 ”( 有 带 团队 经 验 ) 

3rd 2.5 高 级 工程 师 ”( 有 带 团队 经 验 ) 

2nd 1.5 中 级 工程 师 


1st 0.5 初级 工程 上 


从 他 们 所 做 过 的 工作 上 来 看 ， 这 两 位 的 技术 能 力 痢 很 强 。S 君 还 具备 半年 左右 部 门 经 理 的 工作 经 验 ， 而 且 这 两 位 都 是 猫 头 公 司 推荐 的 人 选 ， 那 么 作为 面试 官 你 会 邀请 谁 参 加 面试 呢 ? 


【案例 分 析 】 最 终 ，S 君 在 简历 环节 被 面试 官 淘汰 了 。 一 个 高 级 职位 除了 对 技术 和 管理 能 力 有 较 高 的 要 求 以 外 ， 更 加 看 重 的 是 候选 人 的 责任 心 。 一 个 部 门 的 负责 人 要 有 担当 ， 缺 乏 稳定 性 是 不 能 容忍 的 。 
既然 是 猎头 推荐 ， 说 明 候选 人 是 有 离职 意向 的 。 这 两 个 人 平均 一 家 公司 的 就 职 时 间 都 在 两 年 左右 ， 从 这 一 点 上 来 看 ， 应 该 都 是 不 合格 的 。 


不 过 L 君 最 近 一 家 就 职 时 间 已 经 三 年 多 了 ， 并 且 从 历史 时 间 上 看 ， 离 职 频率 是 呈 下 降 趋 势 的 。 他 之 前 晋升 的 速度 非常 快 ， 说 明 他 的 学 习 能 力 比较 强 。 而 带 团队 的 经 验 相 较 S 君 也 更 加 丰富 一 些 ， 有 一 定做 
管理 的 基础 。 综 合 考虑 他 几 次 离职 有 可 能 是 碰 到 了 职位 天 花 板 的 缘故 ， 但 至 少 是 值得 约见 的 。 当 然 在 面试 过 程 中 也 需要 仔细 考察 衡量 该 候选 人 的 职业 发 展 意向 、 岗 位 稳定 性 、 期 望 值 要 求 及 目前 公司 所 能 提 
供 的 条 件 等 诸多 方面 因素 。 

但 是 S 君 就 不 同 了 。 基 本 上 是 两 年 左右 触发 一 次 离职 事件 。 频 繁 的 离职 表明 了 对 方 缺乏 责任 感 ， 这 种 朝 三 幕 四 的 人 难以 获得 别人 的 信任 。 他 作为 部 门 机 构 的 负责 人 ， 整 个 团队 的 领导 者 ， 刚 刚 半年 就 出 现 


了 离职 的 倾向 。 综 合 来 看 有 两 种 可 能 : 第 一 种 ， 他 目前 所 处 的 部 门 出 现 了 一 些 棘 手 的 问题 ， 导 致 团队 陷入 了 困境 ， 个 人 承受 不 住 压力 ， 考 虑 离开 。 第 二 种 ， 他 在 面 对 更 好 的 机 会 时 ， 就 产生 了 放弃 现 有 团队 
的 想法 ， 缺 乏 职业 道德 。 不 管 是 哪 一 种 ， 这 种 遇 到 困难 或 利益 就 没有 了 担当 的 人 在 进入 团队 的 第 一 天 ， 就 将 是 灾祸 的 开始 。 


【案例 点 评 】 京 东 创 始 人 刘强 东 曾 经 把 人 分 为 4 种 : 第 一 种 是 金 ， 即 能 力 强 又 符合 公司 价值 观 的 人 才 。 第 二 种 是 铁 ， 即 符合 公司 价值 观 但 是 能 力 较 差 的 人 ， 通 过 锤炼 锻造 可 以 成 为 钢 。 第 三 种 是 废 铁 ， 这 
种 两 者 都 不 具备 的 人 在 面试 时 就 会 被 直接 淘汰 ， 不 足 为 虑 。 最 可 怕 的 是 铁锈 ， 即 能 力 极 强 但 是 不 符合 公司 的 价值 观 。 这 种 人 非常 危险 ， 因 为 他 们 不 但 难以 识别 ， 而 且 破 坏 力 惊人 ， 不 及 时 清除 会 腐蚀 掉 整 个 
团队 。 


我 大 概 在 五 六 年 前 也 总 结 过 一 个 类 似 的 观点 : “一 个 人 的 价值 所 在 是 一 种 矢量 的 体现 ， 能 力 大 小 只 决定 其 长 度 ， 但 人 品 决 定 了 最 终 方向 ， 也 决定 了 价值 的 正 负 。” 假 如 在 街 上 有 两 个 恶棍 正在 持 械 行 
办 ， 一 个 持 刀 ， 男 一 个 持 枪 ， 你 认为 哪 一 个 更 危险 呢 ? 尽管 我 是 技术 环节 的 面试 官 ， 但 我 始终 把 技术 放 在 第 二 位 。 技 术 差 一 点 可 以 学 ， 就 像 老 刘 所 讲 的 通过 锤炼 可 以 改变 。 但 是 如 果 技 术 非 常 强 ， 而 人 又 有 
问题 ， 那 么 这 种 人 的 技术 能 力 和 他 即将 带 来 的 破坏 力 是 成 正比 的 。 


A.1.5 ”如何 突破 职业 发 展 瓶 颈 


应 该 说 ， 职 业 发 展 瓶颈 (图 A-3) 是 一 个 非常 普遍 的 现象 。 因 为 优秀 的 岗位 总 数量 是 很 少 的 。 很 多 同行 在 工作 了 几 年 之 后 ， 都 会 出 现 类 似 的 情况 : 发 现 自己 在 某 个 岗位 上 长 期 无 法 突破 ， 工 作 内 容 没 有 
什么 本 质 上 的 变化 ， 薪 酬 待遇 也 总 是 停滞 不 前 ， 职 业 竞 争 力 开始 下 降 ， 同 时 也 产生 了 倦 念 的 工作 情绪 。 


有 有 时候， 并 不 是 别人 不 愿 
站 意 给 予 你 太 多 ; 
@ @ 


即便 得 到 了 更 多 的 给 予 ， 
也 不 见得 就 能 轻松 愉快 的 
接纳 ; 


当 有 足够 的 能 力 胜任 时 ， 
还 秘 得 不 到 么 ? 


那么 问题 症结 在 哪里 呢 ? 我 认为 首先 要 承认 自身 能 力 出 现 了 瓶 矣 ， 这 也 是 根本 原因 。 如 果 你 无 法 认识 到 这 一 点 ， 那 么 你 将 在 错误 的 道路 上 越 走 越 远 。 很 多 人 发 现 薪酬 待遇 无 法 提升 时 ， 往 往 会 在 自身 没 
有 做 出 改变 的 情况 下 ， 就 想 通 过 更 换 新 的 工作 来 改变 目前 的 窘境 ， 这 是 一 种 非常 不 明智 的 选择 。 


这 就 好 比 这 样 一 则 寓言 故事 : 西村 的 树林 里 住 着 一 只 猫 头 麻 。 因 为 人 们 讨厌 它 难听 的 叫 声 ， 总 是 想方设法 要 赶 走 它 。 于 是 ， 猫 头 诀 决定 搬 到 东 村 去 。 半 路 上 ， 它 遇 到 了 一 只 斑鸠 。 斑 鸠 问 : “你 这 是 要 
飞 去 哪里 ? ”猫头鹰 叹 了 口气 说 : “西村 的 人 嫌 我 声音 难听 ， 都 讨厌 我 ， 我 决定 要 搬 到 东 村 去 。 ”斑鸠 听 后 笑 了 起 来 : “老兄 ， 依 我 看 ， 如 果 你 不 能 改变 你 的 声音 ， 不 管 你 搬 到 哪里 去 ， 都 会 是 一 样 的 结 
果 。” 


当然 ， 我 不 否认 同等 岗位 的 薪酬 在 行业 内 是 有 一 定 差异 的 。 但 如 果 你 认识 不 到 自身 能 力 的 不 足 ， 不 去 主动 做 出 改变 ， 转 换 平台 也 无 益 于 根本 问题 的 解决 。 即 便 上 天 真 的 给 了 你 一 个 高 薪 的 职位 ， 你 自身 
无 法 承载 相应 的 要 求 ， 最 终 也 只 能 放弃 。 我 想 让 大 家 明白 一 个 道理 : 做 事情 ， 改 变 目标 不 如 改变 方式 ， 改 变 环境 不 如 改变 自己 。 


图 A-3 简 要 概括 了 职业 发 展 的 瓶颈 : 


我 总 结 了 几 种 类 型 的 人 ， 他 们 往往 很 容易 就 出 现职 业 发 展 瓶 颈 。 


1. 原 地 踏步 型 


这 是 最 典型 的 职业 瓶颈 的 体现 。 这 类 人 长 年 累 月 重复 着 某 一 类 工作 ， 而 且 已 经 形成 了 一 种 惯性 的 工作 模式 ， 因 为 某 些 原因 ， 他 们 无 法 或 不 愿意 做 出 改变 。 


2. 浅 尝 辆 止 型 


这 也 是 一 类 典型 的 现象 ， 这 类 人 接触 过 很 多 领域 的 知识 ， 但 可 惜 的 是 对 每 一 样 都 不 够 深入 。 


他 们 喜欢 对 每 种 软 硬 件 产品 都 进行 尝试 ， 当 发 现 用 不 下 去 时 就 尝试 着 变换 另 一 种 产品 ， 对 产品 的 实现 方式 和 体系 架构 都 不 甚 了解， 最终 沦 为 了 产品 的 试用 者 和 宣传 员 。 


3. 挖 深井 型 


这 一 类 人 钻研 的 领域 往往 应 用 面 比较 窒 ， 可 以 说 是 前 一 种 类 型 的 反 向 极端 。 


【案例 分 享 】 我 曾经 面试 过 一 名 在 一 家 互联 网 企业 做 硬件 测试 的 工程 师 ， 工 作 经 历 大 约 六 到 七 年 ， 一 直 在 从 事 Bench Matrk (IT 行业 中 的 Bench Matk 是 指 : 依照 特定 的 标准 ， 使 用 专业 的 工具 ， 针 对 同 种 类 
型 的 软 硬 件 产品 进行 性 能 检测 ， 最 后 依据 检测 结果 的 比 对 ， 对 产品 的 优 劣 做 出 评价 ) 的 工作 ， 并 且 负 责 一 个 小 团队 。 这 位 候选 人 对 目前 的 薪水 不 够 满意 ， 但 拒绝 了 一 家 知名 硬件 厂商 的 邀请 。 因 为 他 希望 继 
续 留 在 互联 网 行业 并 从 事 原 有 的 工作 。 可 以 说 他 在 硬件 测试 方面 确实 是 个 行家 ， 但 是 他 似乎 比较 排斥 学 习 他 认为 没 用 的 其 他 领域 的 知识 。 因 此 他 最 终 也 没 能 通过 我 们 的 考核 。 

我 们 给 出 的 落选 理由 如 下 : 第 一 ，Bench Matk 可 以 为 服务 器 采购 大 单 节 约 可 观 的 资金 ， 而 且 节省 成 本 的 5% 就 足以 支付 这 位 工程 师 的 薪水 了 ， 但 是 Bench Matk 的 下 一 个 有 效 周期 过 长 ， 在 接 下 来 一 段 时 间 
内 无 法 继续 产生 利益 ， 虽 然 很 重要 但 完全 可 以 找 人 兼职 完成 。 第 二 严重 缺乏 其 他 领域 的 知识 ， 对 职业 发 展 产生 了 不 利 影响 ， 难 以 胜任 更 高 的 管理 或 技术 岗位 。 我 个 人 认为 这 位 候选 人 如 果 不 愿 意 改变 看 法 的 
话 ， 拒 绝 那 家 厂商 的 邀请 很 显然 是 十 分 可 惜 的 。 


可 见 ， 挖 深井 是 有 极 大 风险 的 。 除 非 你 研究 的 领域 是 垄断 性 的 或 极 具 市 场 需求 ， 否 则 很 可 能 这 口 深井 就 是 葬送 自己 职业 生涯 的 坟墓 。 


职业 发 展 最 好 是 着 重 一 个 方向 ， 在 不 断 深入 的 同时 也 注意 横向 知识 的 积累 。 当 达到 一 定 核心 深度 时 你 会 发 现 各 领域 之 间 的 界限 已 经 开始 模糊 了 。 专 注 一 个 方向 发 展 并 不 会 影响 到 你 的 知识 拓展 ， 相 反 这 
种 学 习 方 式 也 会 使 得 广度 学 习 更 加 深入 且 有 针对 性 。 也 就 是 我 们 常 说 的 T 型 人 才 ， 但 我 个 人 更 愿意 称 其 为 扇形 人 才 。 切 记 不 要 做 “万 金 油 ”， 什 么 都 会 就 是 什么 都 不 会 。 


A.1.6 ”如 何 实现 自身 能 力 的 扩展 


1. 拒 绝 重复 性 劳动 ， 日 常 工作 工具 化 


在 这 里 我 认为 不 适宜 讲 自动 化 的 概念 ， 我 认为 现今 自动 化 概念 的 门槛 被 降 得 太 低 了 。 不 是 说 写 个 脚本 或 程序 就 能 称 为 自动 化 运 维 了 。 如 果 把 手动 操作 比 作 走 路 的 话 ， 自 动 化 应 该 是 无 人 驾驶 的 汽车 才 
对 。 目 前 我 们 也 只 是 做 到 了 工具 化 的 级 别 ， 最 多 就 是 自行 车 而 已 ， 仍 旧 需 要 大 量 的 人 工 干 预 环节 。 事 实 上 ， 能 做 出 尽量 减少 人 工 干预 的 工具 化 产品 ， 也 是 一 件 非常 不 容易 的 事情 。 


2 提升 工作 效率 ， 多 做 第 二 时 间 象 限 的 事情 


我 个 人 认为 优秀 团队 不 是 看 加 班 多 少 ， 而 是 看 工作 效率 和 有 多 少 比 例 在 做 第 二 象限 的 事情 ， 第 二 象限 的 完成 目标 应 该 在 PKI 中 占有 更 高 的 比例 才 对 ， 而 不 是 欣欣 然 地 看 扩张 速度 ， 看 团队 成 员 为 赶 项 目 熬 
了 多 少 个 通宵 。 如 果 一 件 事情 不 做 好 品质 ， 做 得 再 快 也 只 是 产生 了 更 多 的 廉价 垃圾 而 已 。 


拓展 : 时 间 管 理 四 象限 的 基本 知识 
第 一 象限 : 紧急 重要 ， 属 于 灾难 型 事务 。 出 现 这 类 事务 往往 会 引发 非常 严重 的 后 果 ， 需 要 立即 解决 。 
第 二 象限 : 重要 不 紧急 ， 属 于 基础 架构 类 的 规划 设计 型 事务 。 该 类 事务 的 影响 效力 是 长 期 的 、 全 局 性 的 ， 一 旦 形成 决策 ， 不 可 以 随意 修改 ， 错 误 的 决策 将 导致 成 本 不 可 控 的 重 构 工 作 。 如 果 此 类 事务 被 
延误 ， 迟 时 会 演变 成 第 一 象限 事务 。 
第 三 象限 : 紧急 不 重要 ， 大 部 分 属于 取悦 别人 的 服务 型 事务 。 通 常 来 说 不 得 不 做 ， 但 要 学 会 尽快 处 理 完毕 。 第 三 象限 事务 往往 大 量 存在 于 常态 化 工作 中 。 因 此 ， 在 技术 层面 上 要 考虑 工具 化 处 理 ， 减 少 
人 工 干 预 ; 在 管理 层面 上 要 考虑 优化 规范 、 精 简 流 程 。 


第 四 象限 : 无 关 紧 要 ， 纯 属 垃 圾 事务 。 这 些 事务 往往 与 工作 无 关 或 属于 无 效 宛 余 ， 应 该 最 大 化 地 杜绝 它们 的 出 现 。 


3. 审 视 自身 目前 的 缺陷 


如 果 认 识 不 到 自身 的 问题 ， 就 无 法 做 出 正确 的 调整 ， 付 出 再 多 的 努力 也 是 白费 的 。 


4. 同 伙伴 一 起 成 长 


可 


在 艰难 的 旅途 上 行进 的 时 候 ， 如 果 有 志向 相同 的 伙伴 便 不 会 感到 孤独 和 困苦 。 出 现 问题 的 时 候 可 以 一 同 探讨 解决 而 不 是 独自 苦 思 和 冥想 ， 尽 快 结识 这 样 的 伙伴 ， 有 时 候 比 拜 一 个 好 师傅 更 重要 。 


5. 用 心 做 事 最 重要 


做 事情 有 四 个 层次 : 做 任务 、 做 工作 、 做 产品 、 做 品牌 。 有 些 人 做 事 就 像 挤 牙 膏 ， 指 使 一 样 干 一 样 ， 多 一 点 儿 都 不 带 做 的 。 还 有 些 人 做 事 好 像 机 器 人 ， 遇 到 异常 情况 ， 既 不 会 变通 也 不 会 提前 汇报 ， 继 
续 按 照 原先 的 方案 做 ， 出 了 问题 反倒 责怪 别人 一 一 “当初 你 没 告诉 我 应 该 这 么 办 啊 ”。 与 其 聘用 这 样 不 用 心 的 员工 ， 还 不 如 写 个 严谨 的 程序 来 做 呢 。 要 想 有 所 成 就 ， 做 事情 不 但 要 用 心 ， 更 要 有 匠心 。 


欧米 匣 (Omega) 是 国际 著名 制 表 品 牌 ， 由 路 易 士 . 勃 兰 特 始 创 于 1848 年 ， 拥 有 将 近 170 年 的 悠久 历史 。 其 代表 符号 “O” 是 希腊 文 的 最 后 一 个 字母 。 象 征 着 事物 的 伊始 与 终极 ， 代 表 了 “完美 、 极 致 、 
卓越 、 成 就 ”的 非凡 品质 。 作 为 世界 上 最 具 影 响 力 的 腕 表 品 牌 ， 曾 缔造 多 项 腕 表 精 度 纪录 ， 它 最 具 智慧 之 处 就 在 于 : 没有 任 由 工业 化 泛滥 到 制 表 的 每 一 个 环节 ， 而 是 将 腕 表 的 最 后 一 道 工序 保留 手工 完成 ， 
坚守 着 “拒绝 批量 生产 ,秉承 手工 制作 ”的 瑞士 制 表 业 的 传统 。 


但 那些 同 为 瑞士 机 芯 的 量 产 表 ， 它 们 的 命运 却 只 能 是 成 为 地 摊 儿 货 。 当 前 这 个 讲求 高 效 高 收益 的 社会 ， 给 人 们 带 来 的 是 急功近利 与 浮躁 的 心态 ， 反 而 失去 了 本 属于 中 国 优秀 传统 文化 的 匠心 精神 。 把 导 
情 做 到 极致 、 精 益 求 精 不 过 是 匠人 的 最 低 标准 ， 匠 心 精神 还 在 于 强调 以 几 个 下 方面 


“ 坚持 、 专 注 : 无 论 外 界 环 境 如 何 变化 ， 匠 人 对 做 事 原则 和 骨气 都 有 着 高 度 的 坚守 。 
:谦恭 、 自 省: 匠人 实事 求 是 ， 谦 进 虚 心 ， 不 自 大 ， 不 吹 咕 。 


“ 襄 晴 、 入 魂 : 匠人 对 工作 有 着 崇高 的 职业 自 罕 感 与 使 命 感 ， 将 自己 的 生命 与 灵魂 注入 到 作品 当中 。 


总 而 言 之 ， 缺 少 匠心 的 产品 就 没有 艺术 和 价值 ， 只 有 真正 的 匠人 才 值 得 人 们 尊敬 。 


A-4 概 括 了 如 何 实现 自身 能 力 的 扩展 : 


[ 


笑 现 脑 XHW 有 V 展 
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市 视 目 前 自作 险 
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同伙 伴 一 起 
成 长 ; 


最 后 要 说 的 是 ， 用心 做 事 最 重要 ! ^_^ 


A.1.7 “是否 为 五 斗 米 折腰 


世界 很 小 ， 圈 子 也 很 小 。 从 业 多 年 后 ， 当 你 在 行业 内 有 了 一 定 地 位 或 声望 的 时 候 ， 难 免 会 接 到 一 些 猎头 或 以 前 共事 伙伴 的 邀请 。 而 当 你 认为 自己 完全 有 能 力 胜任 的 时 候 ， 是 否 会 考虑 更 换 一 个 新 的 环境 
呢 。 面 对 所 谓 的 诱惑 ， 你 又 是 否 真 的 做 好 了 接受 的 准备 呢 。 


1. 什 么 情况 下 考虑 离开 


我 可 以 理解 的 离职 原因 只 有 三 个 : 前 途 、 家 庭 和 工作 环境 。 关 于 前 途 一 般 是 团队 平台 影响 到 了 个 人 职业 发 展 的 时 候 。 前 面 讲 过 ， 职 业 发 展 瓶 颈 主要 是 基于 自身 的 原因 ,但 也 有 客观 因素 存在 。 比 如 一 只 
超级 球 队 ， 连 替补 都 是 一 等 一 的 球星 。 身 为 板 命 队员 并 非 不 够 优秀 ， 而 是 优秀 的 人 实在 是 太 多 了 ， 而 上 场 人 数 又 有 限 。 在 职场 也 是 一 样 ， 某 和 人 本 来 可 以 胜任 更 高 的 职位 ， 但 是 已 经 有 人 占 了 位 置 ， 这 个 时 候 
就 只 能 选择 离开 ， 像 这 种 情况 就 称 为 职位 天 花 板 。 平 台 的 机 制 问题 (例如 绩效 考核 、 管 理 制度 、 团 队 建 设 等 ) 也 是 导致 人 员 流失 的 主要 因素 ， 但 它 与 前 者 带 有 不 可 抗力 的 属性 不 同 ， 这 类 问题 是 可 以 改善 
的 。 因 此 团队 的 领导 者 应 当 重视 机 制 的 建设 和 改善 。 


2. 何 为 好 的 平台 ， 什 么 样 的 团队 值得 加 入 


1) GDP 与 实际 收益 


很 多 新 人 刚 开始 会 比较 看 重 自己 能 学 到 多 少 东 西 ， 希 望 能 加 入 那些 拥有 众多 牛人 团队 的 大 平台 。 我 想 要 说 明 一 点 的 是 : 牛人 其 实在 每 一 家 公司 都 是 必 备 的 。 也 可 以 说 这 些 牛 人 就 是 公司 最 主要 的 GDP 来 
源 ， 如 果 一 个 公司 连 这 些 都 不 具备 那 就 离 倒闭 不 远 了 。GDP 越 高 ， 意 味 着 人 均 GDP (你 的 成 长 机 会 ) 也 就 越 高 。 但 是 大 家 都 懂 一 个 道理 : 人 均 GPD 并 不 等 于 实际 收益 ， 它 们 完全 就 是 两 码 事 。 


什么 叫做 实际 收益 呢 ? 就 是 那些 你 真正 能 够 获得 的 东西 ， 实 际 收 益 不 但 要 看 得 到 ， 还 要 摸 得 着 。 关 键 不 在 于 你 的 团队 有 多 少 牛 人 ， 而 是 有 多 少 愿意 和 你 一 起 分 享 ， 一 同 成 长 的 伙伴 。 当 然 如 果 有 一 位 大 
牛 愿意 带 你 成 长 带 你 飞 ， 那 当然 是 再 好 不 过 的 了 。 


但 是 如 果 你 与 这 些 牛 人 在 工作 领域 中 没有 任何 交集 ,或 者 出 于 各 种 原因 他 们 无 法 或 是 不 愿 与 你 分 享 ， 光 有 和 牛人 却 学 不 到 东西 ， 则 是 毫 无 意义 的 。 那 么 能 不 能 主动 去 学 呢 ? 没 错 ， 具 备 主动 学 习性 是 好 
的 ， 但 是 如 果 团队 成 员 无 法 自发 地 去 做 分 享 ， 或 者 所 谓 的 分 享 知识 只 流 于 形式 ， 那 么 再 主动 多 半 也 学 不 到 什么 东西 。 毕 竟 公 司 不 是 学 校 ， 没 法 安排 一 个 专门 学 习 的 岗位 出 来 。 


2) 工作 很 忙 是 好 事情 吗 


一 个 团队 不 怕 忙 、 不 怕 累 ， 关 键 看 你 在 忙 什么 。 大 家 看 下 图 A-5 中 的 小 人 儿 ， 左 右 两 边 都 在 跑 ， 但 跑 的 含义 却 大 大 不 同 。 一 个 是 在 健身 ， 一 个 是 在 逃命 。 如 果 一 个 团队 每 天 八 小 时 甚至 更 多 的 时 间 都 在 
处 理 故 障 、 上 线 、 维 护 、 工 单 等 一 系列 应 急 的 事情 ， 那 怎么 可 能 有 时 间 去 做 技术 提升 呢 ， 没 有 时 间 做 第 二 象限 的 事情 ， 迟 早 都 会 演变 成 第 一 象限 的 事情 。 


他 为 好 擅 严 谷 ? 


有 多 少 牛 人 不 重要 ， 
重要 的 是 有 多 少 愿 和 
你 一 起 成 长 的 伙伴 。 


不 怕 忙 、 不 怕 累 ， 关 
键 要 看 忙 什么 ? 


外 永远 都 要 向 前 看 ， 而 


~ 不 是 向 钱 看 。 


A-5 何 为 好 的 平台 


3) 永远 向 前 看 ， 不 要 向 钱 看 


十 年 磨 一 剑 ， 大 成 就 往往 需要 长 时 间 的 磨 练 才 可 能 有 所 得 。 如 果 目 前 的 工作 环境 正好 有 助 于 你 的 职业 成 长 ， 在 公司 处 于 一 个 上 升 发 展 的 良好 阶段 ， 切 不 可 为 了 眼前 的 区 区 小 利 ， 急 急忙 忙 地 改 投 别 家 。 
否则 ， 几 年 以 后 你 就 会 发 现 ， 新 东家 似乎 并 不 是 那么 的 重视 你 ,而 自己 原 有 的 发 展 机 会 也 白白 地 让 别人 捡 了 便宜 。 大 家 都 玩 过 跳棋 吧 ? 往 前 跳 的 棋子 未 必 能 走 多 远 ， 但 一 定 会 为 后 面 的 棋子 让 开道 路 。 离 职 


有 时 候 看 似 是 自 己 的 机 遇 ， 却 往往 是 为 他 人 做 了 嫁 衣 。 


A-5 简 要 概括 了 何 为 好 的 平台 : 


[ 


3. 高 薪水 是 有 代价 的 


没有 金刚 钼 ， 别 揽 瓷 器 活 儿 。 如 果 你 参加 完 一 个 面试 后 ， 发 现 自己 胜任 这 项 工作 尚 有 困难 ， 对 方 却 发 来 了 薪水 诱 人 的 offer， 这 时 候 最 好 是 谨慎 接受 。 


大 家 去 肯德基 就 餐 ， 会 发 现 单 点 的 东西 总 是 比 套餐 要 贵 得 多 。 再 有 比如 可 口 可 乐 ，330m| 的 负 装 饮料 售 价 大 约 在 2 元 左右 ， 而 2L 的 大 瓶装 虽然 售 价 高 达 6.5 元 ， 但 容量 却 是 前 者 的 6 倍 。 在 职场 里 也 会 出 现 
同样 的 情况 。 往 往 收入 越 高 其 性 价 比 越 低 。 比 如 当 薪 酬 是 1， 此 时 的 要 求 也 是 1。 而 当 薪 酬 是 10， 此 时 的 要 求 往往 变 成 了 12 或 13。 我 将 其 称 为 “全 家 桶 现象 ”。 和 


味 着 你 要 为 此 付出 更 多 的 代价 。 


没有 一 个 公司 是 出 来 做 慈善 的 ， 高 薪水 往往 意 


企业 有 时 候 急 于 求 成 也 难免 会 看 走 眼 ， 请 来 了 不 合适 的 人 选 ， 结 果 弄 得 双方 压力 都 非常 的 大 。 行 业 圈子 本 来 就 很 小 ， 如 果 承 担 不 了 压力 被 迫 离职 是 件 非常 糟糕 的 事情 ， 传 扬 出 去 反倒 坏 了 名 声 。 


4 .是否 应 该 投身 创业 公司 


假如 你 身 处 荒 郊野 外 ， 现 在 这 里 有 一 辆 越野 车 、 一 辆 马车 、 一 辆 摩托 车 和 一 辆 自行 车 ， 你 会 选择 搭乘 哪 一 种 交通 工具 呢 ? 越野 车 固然 好 ， 但 你 未 必 能 够 驾驭 ; 马车 速度 虽说 慢 些 ， 也 还 算 不 错 ; 摩托 车 


车 速 快 ， 但 安全 系数 低 ， 也 许 能 最 先 到 达 终 点 ， 也 有 可 能 一 不 小 心 就 滚 下 了 山 润 ; 自行 车 很 辛苦 ， 不 过 总 比 走 着 强 ， 先 骑 着 看 ， 遇 到 更 好 的 可 以 再 换 。 


很 多 人 都 会 面临 这 种 选择 。 大 公司 不 一 定 进 得 去 ， 有 些 人 就 会 在 中 型 企业 和 创业 公司 之 间 犹 殉 。 实 现 财务 自由 是 创业 公司 最 大 的 卖点 ， 但 选择 它 的 人 却 不 一 定做 好 了 失败 的 准备 ， 也 许 这 是 因为 他 们 距 


离 第 一 次 互联 网 革命 的 时 代 太 远 了 。 


关于 是 否 加 入 创业 公司 这 个 问题 ， 以 下 这 些 话 是 我 要 对 那些 职业 发 展 正 处 在 上 升 期 阶段 的 同学 们 讲 的 。 所 举 的 例子 ， 只 为 讨论 分 析 之 用 ， 没 有 恶意 。 一 家 之 言 ， 仅 供 参考 。 如 果 你 已 经 具备 了 高 管 的 实 


力 ， 或 者 是 初 入 职场 的 新 人 ， 那 么 这 些 观点 并 不 适合 你 。 


1) 30% 能 买 断 几 年 的 青春 ? 


创业 公司 的 特点 是 设备 飞速 扩张 ， 团 队 人 员 不 整 ， 有 大 量 的 初始 化 工作 需要 有 经 验 的 实施 团队 来 完成 ， 因 此 有 很 多 事 需 要 你 从 零 做 起 。 但 出 于 成 本 的 考虑 ， 薪 酬 涨幅 往往 只 有 209%~30%。 对 于 那些 正 
处 在 上 升 期 阶段 的 同学 来 说 ， 这 意味 着 要 你 放弃 现 有 的 发 展 机 会 ， 一 下 倒 回 解放 前 。 那 么 重新 来 过 到 再 次 追赶 上 现 有 进度 ， 前 后 需要 花费 的 时 间 周 期 有 多 长 ? 你 是 否 对 此 进行 过 评估 呢 ? 不 说 别 的 ,一 个 60 


人 左右 的 运 维 团队 只 能 算 中 等 吧 ? 至 少 也 需要 两 三 年 左右 的 时 间 才 能 找到 合适 的 人 选 。 人 家 用 了 30% 的 钱 ， 就 买 断 了 你 至 少 两 三 年 的 青春 。 而 你 有 没有 想 过 ， 两 三 年 以 后 你 和 以 前 小 伙伴 的 差距 会 有 多 大 ? 


所 以 ， 不 要 单纯 地 去 看 薪酬 ， 要 从 多 个 维度 去 权衡 利 浆 。 


2) 财务 自由 一 一 不 要 让 赌 徒 心 理 作 怪 


如 果 说 30% 不 能 撼动 你 的 话 ， 财 务 自由 也 是 一 个 令 人 神往 的 理由 啊 。 不 过 需要 提醒 大 家 的 是 ， 创 业 本 身 就 有 一 定 的 风险 。 但 实际 上 有 些 人 是 抱 着 押宝 的 心态 去 创业 公司 的 。 有 这 种 想法 是 非常 危险 的 ， 


层 与 核心 ， 恐 怕 财 务 自由 这 句 话 也 不 是 对 你 说 的 。 


3) 成 功 没有 充 要 条 件 


牛人 云集 也 好 ， 资 金 友 厚 也 罢 ， 这 些 都 不 能 成 为 保本 儿 保 息 的 有 力 依据 。 当 年 十 八 家 诸侯 讨伐 董卓 ， 有 谁 能 确保 自己 的 团队 肯定 就 能 成 就 霸业 呢 ? 刘备 文 有 卧龙 凤 稚 ， 武 有 五 虎 上 将 ， 坐 拥 西川 ， 最 后 


这 种 有 着 赌 徒 心 态 的 人 不 管 到 哪里 都 是 不 会 获得 成 功 的 。 另 外 ， 我 还 要 再 给 大 家 泼 个 凉水 。 宋 江 和 卢 俊 义 上 梁山 比 很 多 人 都 要 晚 ， 但 这 两 个 人 却 依旧 坐 了 头 两 把 交椅 。 我 的 意思 是 : 如 果 你 成 为 不 了 团队 的 
高 


七 十 万 大 军 还 不 是 兵 败 于 白 帝 城 吗 ? 猪八戒 好 吃 懒 做 ， 工 作 能 力 差 ， 还 总 在 团队 里 散播 负 能 量 ， 但 始终 没 离开 取经 队伍 ， 最 后 他 也 修成 了 正果 。 有 时 候 站 队 就 是 一 种 随机 选择 ， 真 就 没什么 道理 可 讲 。 当 下 


4) 要 和 弄 清楚 对 方 是 求 贤 若 渴 还 是 求职 若 渴 


市 场 竞争 ， 没 有 谁 是 绝对 安全 的 。 成 功 是 受 多 种 主客 观 因素 共同 影响 的 。 首 先 自己 要 努力 ， 同 时 还 需要 有 适当 的 机 遇 来 辅助 ， 客 观 条 件 是 不 可 控 的 ， 所 以 要 摆 正 心态 才 对 。 


要 了 解 清楚 ， 人 家 到 底 是 需要 你 这 个 人 ， 还 是 你 这 个 角色 。 如 果 只 是 要 你 来 撑 场面 救 炎 的， 一旦 人 员 齐 整 后 ， 你 是 否 会 被 后 来 者 居 上 呢 ? 不 要 甘 当 了 铺路 泥 ， 到 时 候 连 铺路 石 都 算 不 上 。 


5) 愿 赌 服输 也 是 需要 资本 的 


有 一 个 笑话 : 有 一 个 人 和 一 只 鹦 静 同 坐 必 机 。 在 飞机 上 鹦 葛 对 空姐 的 表现 非常 无 礼 ， 那 个 人 也 跟着 鹦鹉 学 ， 结 果 两 位 都 被 和 下 了 飞机 。 这 时 候 鹦 更 拍 着 埃 膀 对 那个 人 说 : “不 会 飞 你 可 牛 什么 呀 。” 


我 常 听 人 讲 : 年 轻 热血 赌 一 把 ， 错 了 也 不 后 悔 ， 大 不 了 愿 赌 服输 。 要 知道 愿 赌 服输 也 要 你 有 资本 才能 输 得 起 ， 没 有 资本 输 的 人 是 没 资格 讲 这 个 话 的 。 


你 如 果 年 轻 又 没有 家 庭 负 担 ， 那 很 好 ， 这 正 是 你 输 得 起 的 资本 。 这 个 社会 喜欢 同情 弱者 ， 年 轻 就 是 犯错 误 的 资本 ， 大 家 都 能 原谅 。 但 当 你 已 过 而 立 之 年 的 时 候 ， 社 会 对 你 的 容忍 度 就 开始 降低 了 。 你 必 


有 面 对 失 败 的 准备 ， 要 有 挽回 局 面 的 能 力 。 有 些 路 走 错 了 ， 就 再 也 没 法 回头 了 。 


济 


我 不 想 剥 夺 大 家 的 梦想 ， 只 是 想 提醒 你 们 做 事情 有 成 功 更 有 失败 ， 如 果 你 输 不 起 最 好 老实 本 分 一 些 。 


A2 面试 官 篇 


A.2.1 ”团队 需要 什么 人 


作为 一 个 运 维 团队 ， 技 术 诚 然 是 最 基本 的 要 求 。 但 我 不 会 把 技术 排 在 第 一 位 ， 而 是 更 看 重 一 个 人 的 综合 素质 (包括 性 格 、 价 值 观 、 处 事 方法 、 同 理 心 、 


责任 心 、 认 知 力 、 沟 通力 、 洞 察 力 、 执 行 力 、 学 


习 力 ， 等 等 ) 。 原 因 有 两 个 : 第 一 ， 综 合 素质 与 一 个 人 的 成 长 教育 环境 有 关 ， 是 受 长 期 影响 的 结果 的 累积 体现 。 正 所 谓 江 山 易 改 、 本 性 难 移 ， 这 方面 不 是 短 时 间 就 可 以 轻易 变更 的 。 况 且 企业 又 不 是 学 校 ， 


没有 义务 和 成 本 去 做 这 种 素质 教育 。 第 二 ， 运 维 工 作 关系 着 行业 生产 的 正常 运行 ， 如 果 人 员 素质 不 达标 ， 技 术 能 力 强 在 产生 负面 影响 的 时 候 只 会 更 加 糟糕 。 


第 三 ， 有 些 技术 差距 是 受 工作 环境 所 限 造成 的 ， 


综合 素质 过 硬 的 话 ， 这 种 技术 差距 很 容易 就 能 弥补 。 我 讲 这 些 并 不 是 为 了 强调 技术 不 重要 ， 而 是 提醒 大 家 不 要 唯 技术 至 上 。 技 术 可 以 学 ， 而 综合 素质 从 某 种 程度 上 来 讲 ， 只 能 影响 却 不 能 培养 。 因 此 综合 素 


良好 的 人 才 是 可 遇 而 不 可 求 的 ,一定 要 珍惜 。 关 于 这 一 点 ，A.1.4 节 中 ， 我 想 我 已 经 讲 得 够 多 的 了 。 


汉 


一 般 高 级 职位 更 倾向 于 从 业 五 年 以 上 有 经 验 的 人 。 除 了 基本 技术 要 求 之 外 ， 还 应 当 具备 如 下 能 力 : 善于 倾听 ， 沟 通 协调 能 力 好 ; 做 事 规 划 性 和 规范 性 强 ; 沉稳 冷静 ， 分 析 预 见 力 强 ， 考 虑 问题 周全 。 


如 果 是 招 纳 新 人 ， 最 好 能 有 两 年 左右 的 相关 经 验 。 需 要 具备 一 定 的 基础 知识 ， 另 外 还 有 三 点 要 求 : 执行 力 强 ; 工作 及 学 习 意愿 强 ; 做 事 认真 负责 。 


A.2.2 ”招聘 启事 中 的 问题 


和 很 多 虚假 简历 一 样 ， 我 


也 见 到 过 很 多 前 


后 描述 不 一 致 的 招聘 启事 ， 


连 新 人 都 能 Cover 的 程度 。 有 些 则 是 要 求 过 于 苛刻 ， 


VP 的 待遇 了 。 我 想 求职 者 在 面 


A.2.3 面试 官 的 修养 


还 是 之 前 提 开 


被 给 予 了 差 评 。 一 个 公司 的 品牌 形象 可 能 


对 这 类 职位 时 ， 对 


真实 性 和 真诚 性 都 会 秉持 不 信任 的 态度 。 因 


面试 不 是 企业 对 求职 者 单方 


原 企业 内 在 本 质 的 真实 
其 实 是 有 必 


1. 态 度 傲慢 、 自 以 为 是 


有 些 面试 官 会 不 


外 有 些 公 


。 如 果 


2. 穷 追 猛 打 、 令 人 难堪 


源 于 产品 和 商业 操作 ， 而 我 认为 其 企业 文化 形象 取决 于 另外 三 个 出 口 : 
因素 。 我 认为 首先 应 该 树立 起 一 个 正确 的 面试 观 ， 才 能 做 好 或 才 有 资格 担任 面试 官 。 有 很 多 的 个 人 细节 问题 ， 确 实 值得 
对 面试 官 做 一 些 培训 的 。 


在 某 一 个 技术 问题 上 ， 如 果 候选 人 无 法 回答 或 答 错 了 ， 
悦 ， 正 所 谓 得 饶 人 处 且 饶 人 嘛 。 


令 候 选 人 更 加 紧张 和 不 


HI 


3. 闲 聊 式 的 面试 


有 些 面试 官 实在 是 


试 


4. 马 拉 松 式 的 盏 


缺乏 时 间 观 念 ， 


自觉 了 地 有 一 种 优越 感 ， 对 候选 人 不 是 非常 的 友好 。 在 交谈 的 过 程 中 低 着 头 ， 没 有 目 视 候 选 人 ， 打 断 别人 的 讲话 ， 语 气 冰 冷 ， 


面 的 考核 ， 而 是 一 次 彼此 都 要 接受 检验 的 双向 选择 。 一 场面 试 下 来 ， 也 许 淘汰 的 是 求职 者 ， 但 可 能 在 求职 者 心中 ， 面 试 官 和 公司 
前 台 、 外 务 (销售 、 项 目 经 理 、 技 术 支 持 、 培 训 师 ) 和 HR (包括 
反思 。 这 不 仅仅 是 个 人 的 修养 之 道 ， 更 关乎 公司 


给 人 的 感觉 就 是 缺乏 诚信 ， 无 法 引起 求职 者 的 兴趣 。 例 如 有 些 Title 很 高 的 职位 (x x 专家 或 高 级 工程 师 等 ) 对 应 聘 者 的 要 求 却 简单 到 
薪资 待遇 却 不 敢 恭 维 。 还 有 一 些 职位 对 薪资 待遇 的 定位 非常 随意 。 例 如 某 专家 职位 薪酬 30 万 ~100 万 。30 万 也 就 是 中 高 级 的 水 平 ，100 万 在 很 多 公司 都 是 
此 HR 应 当 同 需求 负责 人 与 猎头 公司 做 好 有 效 的 沟通 ， 三 方 应 对 招聘 启事 的 内 容 进行 仔细 的 核实 。 


的 形象 也 同样 


面试 官 ) 。 


这 三 者 才 是 还 


司 还 喜欢 进行 压力 测试 的 考核 ， 故 意 刁 难 或 刺激 候选 人 ， 然 后 借以 观察 对 方 的 反应 和 心理 承受 能 力 。 我 认为 除非 岗位 有 这 种 职业 需求 (高 
换 位 思考 的 话 ， 你 是 否 愿 意 接受 这 类 测试 呢 ? 


不 要 把 面试 弄 成 车 轮 战 ， 更 不 要 搞 什 么 初试 复试 之 类 的 。 这 又 不 是 大 奖 赛 ， 让 候选 人 反复 跑 多 趟 是 不 合适 的 。 一 般 职 位 的 面试 最 好 能 够 一 次 就 完成 ， 由 技术 、 


来 ， 


功 90% 了 。 面 试 结束 后 你 很 快 就 能 收 到 回复 。 相 反 的 ， 如 果 没 有 见 到 HR 或 部 门 领导 ， 那 就 是 没戏 了 。 除 非 明确 是 多 场次 的 


A.2.4 ”做 讨 人 喜欢 的 面试 官 


俗话 说 “买卖 不 成 仁义 在 ”。 


不 


现 出 自己 的 


1. 避 免 令 人 抓 狂 的 问题 


1) 手 里 拿 着 求职 者 的 简历 要 求 对 方 做 


我 实在 是 找 不 到 问 这 个 问题 的 充分 理由 。 
题 的， 最 好 还 是 比较 体贴 地 留 给 HR 的 M M 吧 。 如 果 这 个 问题 让 每 个 环节 的 


2) 为 什么 离职 


这 一 点 马云 先生 已 经 总 结 得 和 


愤怒 ， 可 是 到 了 网 上 ， 那 些 负 


自我 介绍 


管 结果 如 何 ， 我 都 不 希望 面试 过 程 给 候选 人 留 下 不 愉快 的 回忆 。 一 个 
面 情绪 就 会 全 部 倾泻 出 来 。 他 们 不 仅 是 在 表达 不 满 ， 甚 至 还 产生 了 对 这 家 企业 形象 的 敌视 。 对 于 这 点 我 希望 所 有 的 


可 以 把 时 间 控 制 在 两 个 小 时 左右 。 时 间 过 长 ， 人 会 感到 疲惫 ， 状 态 也 会 下 降 。 上 顺便 透露 一 个 小 秘密 : 作为 一 般 职位 ，80% 的 


的 对 外 形象 ， 


喜欢 迟到 等 恶劣 的 行为 都 会 引发 候选 人 的 不 满 。 


层 管 理 人 员 或 销售 ) ， 和 否则 压力 测试 实在 是 有 悖 常 


面试 官 可 以 稍 作 提示 ， 如 果 提 示 没有 效果 的 话 ， 就 应 该 转 入 下 一 个 问题 。 此 时 胜 负 已 分 ， 就 该 点 到 为 止 。 穷 追 猛 打 不 会 显得 你 技 高 一 筹 ， 


而 会 


面试 没有 主题 ， 东 拉 西 扯 ， 想 起 什么 问 什 么 ， 完 全 是 漫 无 目的 的 闲聊 。 和 候选 人 一 样 ， 在 面试 之 前 ， 面 试 官 也 应 当做 好 充足 的 准备 功课 ， 问 问题 应 做 到 有 的 放 矢 。 


部 门 领导 和 HR 三 轮 组 成 就 够 了 。 这 样 下 


H 


试 ， 否 则 那 种 被 告知 


如 果 你 见 到 HR 并 谈 到 了 薪水 ， 基 本 上 就 成 


面试 结果 其 实 当场 就 已 经 决定 了 。 


去 等 消息 的 话 ， 


日 


就 是 一 种 委婉 的 拒绝 。 


面试 官 最 不 愿意 看 到 的 就 是 ， 候 选 人 在 网 站 上 的 各 种 


是 没 时 间 看 简历 ?还 是 想 核实 简历 的 真实 性 ”我 想 可 能 是 面试 


三 


H 


民 精 辟 了 ， 我 再 补充 两 个 比较 合理 的 理由 就 是 家 庭 原 


会 很 有 针对 性 的 做 这 方 


3) 对 我 们 公司 了 解 吗 


开场 白 
望 面试 官能 直 白 


中 
路 
意 脖 
全 
党 
隘 
局 


解 ， 


面 的 准备 ， 最 终 你 得 到 的 也 只 是 干 


真 的 很 
地 告诉 我 这 是 一 家 怎样 的 企业 ， 他 们 需要 怎样 的 人 ， 他 们 在 做 什么 ， 他 们 的 团 


4) 如 果 你 被 淘汰 了 ， 你 觉得 会 是 


为 什么 原 


我 会 直 白 


也 告诉 面试 官 ， 那 肯定 是 


为 我 与 你 合 不 来 。 


2. 什 么 是 好 的 交流 方式 


我 希望 面试 官能 打破 高 高 在 上 的 那 种 我 问 你 答 的 旧 有 模式 。 我 认为 让 面试 官 先 做 


试 官 都 问 上 一 遍 ， 我 想 候选 人 一 定 会 疯 掉 的 。 


自己 都 不 知道 该 说 什么 好 ， 为 了 打开 


面试 吐槽 。 也 许 


当众 的 


监 众 。 即 便 是 公司 员工 也 不 见得 就 了 解 公司 的 全 部 。 有 些 企业 文化 会 讲 ， 对 公司 都 不 了 解 就 不 该 来 面试 。 但 是 面试 官 是 不 是 
队 是 怎样 的 ， 是 否 能 燃 起 我 心中 的 能 能 烈焰 ， 人 迫不及待 地 想 要 加 入 这 个 伟大 的 团 


自我 介绍 才 是 最 好 的 开 


境 及 所 使 


接 下 来 进入 技术 环节 ， 我 建议 问题 不 要 超过 5 个 。 主 


点 


RR 


到 的 技术 和 职位 要 求 ， 
岗位 有 一 个 清晰 的 了 解 ， 便 于 接 下 来 有 针对 性 的 交流 。 习 
方 留 下 一 个 非常 美好 的 印象 。 这 样 做 ， 有 百 利 而 无 一 害 。 


秆 等 。 如 果 是 部 门 领导 或 HR， 最 好 能 对 公司 


的 商业 运作 、 企 业 文化 、 福 入 


最 后 再 补充 两 个 非 技术 问题 : 第 一 ， 
得 这 两 者 其 实 本 质 上 并 没有 什么 


?因为 候选 人 挑选 的 已 经 是 他 最 擅长 的 
了 ， 应 该 停止 讨论 并 切换 到 下 一 个 问题 。 所 谓 点 到 为 止 ， 没 有 必要 继续 纠缠 不 清 。 


内 容 了 ， 对 最 擅长 的 方 


别 ， 但 显然 这 样 的 提问 更 加 有 亲和力 。 


A.2.5 团 


队 怎 样 增加 吸引 力 和 凝聚 力 


面 进行 最 深入 的 讨论 足以 考察 对 方 的 技术 能 
这 样 计算 大 约 总 计 花费 半 个 小 时 。 


局 效果 。 请 


面试 官 花费 5 分 钟 的 时 间 先 简要 介绍 一 下 公司 的 基本 情况 ， 还 有 你 的 团 


队 。 


待遇 做 一 些 宣传 。 这 种 


我 介绍 很 容易 打开 话题 ， 而 


集中 在 三 类 问题 上 : 第 一 ， 候 选 人 在 以 往 工 作 中 最 擅长 的 一 两 个 技术 ， 以 考察 候选 人 对 以 往 工作 是 否 
让 候选 人 选择 一 两 个 最 有 把 握 的 ， 以 考察 候选 人 是 否 可 以 胜任 工作 ; 最 后 了 解 一 下 候选 人 最 近 在 关注 什么 技术 。 每 个 问题 要 尽量 深入 ， 考 察 对 方 对 原理 或 方法 的 理解 程度 。 为 什么 不 必 问 太 多 的 问题 


还 可 以 缓解 候选 人 的 紧张 


实 上 这 也 是 一 种 商业 宣传 ， 对 增强 候选 人 入 职 的 积极 性 是 有 帮助 的 。 退 一 万 步 讲 ， 即 便 候选 人 没 能 通过 考核 或 放弃 offer， 这 种 待人 | 


面试 时 他 们 是 弱势 一 方 无 法 表 
面试 官 都 能 重视 起 来 ， 做 讨 人 喜欢 的 面试 官 。 


局 面 并 找到 切入 点 才 问 的 吧 ? 我 是 不 喜欢 问 这 个 问 


因 和 工作 环境 。 除 此 之 外 ， 我 想不到 更 加 有 说 服 力 的 理由 了 。 所 以 这 个 问题 本 质 上 没有 任何 意义 ， 稍 有 经 验 的 候选 人 都 
一 律 的 巧妙 说 辞 罢了 ， 并 不 一 定 是 对 方 的 真实 想法 。 


为 对 候选 人 都 不 了 解 就 放弃 招聘 呢 ? 我 不 了 


队 规 模 、 运 维 环 
博 绪 ， 对 公司 或 


的 方式 也 会 给 对 


心 钻研 ;第 二 ， 列 出 目前 职位 需 


的 技术 


。 一 个 问题 的 时 间 注 意 控制 在 5 分 钟 以 内 。 另 外 只 要 发 现 对 方 深入 不 下 去 了 ， 结 果 也 就 显现 出 来 


自己 最 大 的 非 技 术 优势 是 什么 〈 举 例 说 明 ) ?借以 考察 对 方 的 性 格 品质 和 综合 能 力 。 第 二 ， 你 对 新 团 


队 的 期 许 是 什么 ”这 显然 比 问 为 什么 离职 要 好 得 


关于 团队 的 建设 和 管理 方面 ， 本 人 也 是 个 初学 者 。 因 此 不 再 过 多 妄 言 ， 简 单 地 提 几 点 建议 仅 供 参考 。 


“ 团队 成 员 之 间 可 以 有 差异 和 分 层 ， 但 成 员 之 间 的 技术 能 力 不 要 过 度 分 化 。 

“ 团队 可 以 有 带头 人 、 但 不 要 产生 绝对 核心 ， 以 免 出 现 单 点 隐患 。 

“ 团队 要 建设 导师 制度 ， 形 成 技术 主动 分 享 、 愿 意 带 领 新 人 的 好 风气 ， 确 保 成 员 有 成 长 的 空间 。 
“ 设置 有 效 的 PKI， 为 第 二 象限 事务 、 导 师 制 度 、 数 据 产 出 (降低 成 本 或 提升 性 能 ) 设 定 PKI。 
“ PKI 要 具备 确保 有 效 性 的 三 要 素 ， 包 括 验 收 标准 、 时 间 进 度 、 完 成 后 的 奖励 内 容 。 


. 不 定期 进行 团队 内 部 交流 ， 明 确 目标 、 分 析 问题 、 消 除 误解 ， 去 除 不 利于 团队 发 展 的 因素 。 
太 3 放言 


讲 了 这 么 多 ， 我 觉得 还 是 有 很 多 话 没有 说 完 。 这 篇 文章 并 非 教科 书 ， 也 并 非 要 刻意 针对 什么 ， 以 上 这 些 感悟 不 过 是 我 近 十 年 来 的 亲身 经 历 和 所 想 所 得 而 已 。 我 只 是 站 在 一 个 相对 公正 客观 的 立场 之 上 ， 
说 了 一 些 真 减 的 大 实话 ， 既 讲述 到 了 职业 发 展 ， 求 职 攻略 及 关于 面试 官 的 修养 问题 ， 也 希望 大 家 就 此 能 得 到 激励 并 重新 正确 地 认识 自己 ， 不 要 肴 午 沉 沉 地 过 日 子 ， 误 了 自己 这 一 生 。 我 相信 我 身边 仍然 有 许 
多 还 未 意识 到 自己 的 问题 或 希望 求 得 帮助 的 朋友 ， 这 也 正 是 我 愿意 鼓 起 勇气 ， 奋 笔 疾 书 的 最 大 动力 。 这 篇 文章 中 提 到 的 最 重要 的 优秀 品质 心 做 事 的 匠人 态度 和 付 诸 行动 的 坚韧 毅力 ， 正 是 我 人 生 的 座 
右 铭 ， 这 两 点 也 希望 每 个 人 都 能 去 践 行 。 


最 后 和 大 家 共勉 一 句 话 一 一 也 许 你 现在 和 我 一 样 ， 不 过 是 个 无 名 小 卒 。 但 只 要 你 愿意 改变 ， 世 界 一 定 会 为 你 动容 。 


